COMPARATIVE ANALYSIS OF MACHINE LEARNING ALGORITHMS FOR COSMETIC SALES PREDICTION ON TOKOPEDIA
Abstract
Abstract: The rapid growth of the cosmetics industry on e-commerce platforms has intensified competition, creating a critical need for effective, data-driven marketing strategies. This study aims to conduct a comparative analysis of machine learning algorithms to predict the sales categories (High, Medium, Low) of cosmetic products on the Tokopedia marketplace. Four classification models; Random Forest, XGBoost, Logistic Regression, and Naive Bayes were trained and evaluated on data collected via web scraping. The methodology incorporates the Synthetic Minority Over-sampling Technique (SMOTE) to address significant class imbalance and GridSearchCV for hyperparameter optimization to ensure a fair and robust comparison. The experimental results conclusively show that the Random Forest model achieved the best performance, yielding the highest F1-Score Macro Average of 0.75 and an accuracy of 85.3%. The superior model was subsequently implemented in a simple recommendation system to simulate optimal discount strategies, demonstrating its practical utility in providing actionable insights for business decisions.
Keywords: classification; comparative analysis; machine learning; sales prediction; SMOTE
Abstrak: Pertumbuhan pesat industri kosmetik pada platform e-commerce telah membuat persaingan ketat, sehingga menciptakan kebutuhan krusial akan strategi pemasaran yang efektif dan berbasis data. Penelitian ini bertujuan untuk melakukan analisis komparatif terhadap algoritma machine learning untuk memprediksi kategori penjualan (Tinggi, Sedang, Rendah) produk kosmetik di marketplace Tokopedia. Empat model klasifikasi, yaitu Random Forest, XGBoost, Regresi Logistik, dan Naive Bayes, dilatih dan dievaluasi menggunakan data yang dikumpulkan melalui web scraping. Metodologi penelitian ini menerapkan Synthetic Minority Over-sampling Technique (SMOTE) untuk mengatasi ketidakseimbangan kelas yang signifikan dan GridSearchCV untuk optimisasi hyperparameter guna memastikan perbandingan yang adil. Hasil eksperimen menunjukkan bahwa model Random Forest mencapai performa terbaik, dengan menghasilkan F1-Score Macro Average tertinggi sebesar 0,75 dan akurasi 85,3%. Model unggul ini kemudian diimplementasikan dalam sebuah sistem rekomendasi sederhana untuk menyimulasikan strategi diskon yang optimal, yang menunjukkan kegunaan praktisnya dalam memberikan wawasan yang dapat ditindaklanjuti untuk pengambilan keputusan bisnis.
Kata kunci: analisis komparatif; klasifikasi; machine learning; prediksi penjualan; SMOTE
References
E. N. Lathifah, “Pengaruh Potongan Harga Terhadap Volume Penjualan Produk Skincare Pada Klinik Kecantikan Anye Medical Estetik Di Kelurahan Peranap, Kecamatan Peranap, Kabupaten Indragiri Hulu,” vol. 10, no. 1, 2024.
I. Rahmania dan A. Waris, “Pengaruh Price Discount dan Konsep Diri terhadap Keputusan Pembelian Produk Skintific pada Tiktok Shop,” CEMERLANG J. Manaj. Dan Ekon. Bisnis, vol. 4, no. 4, hlm. 143–155, Okt 2024, doi: 10.55606/cemerlang.v4i4.3247.
R. Johannes dan A. Alamsyah, “Sales Prediction Model Using Classification Decision Tree Approach For Small Medium Enterprise Based on Indonesian E-Commerce Data,” Eprint ArXiv210303117, 2021, doi: https://doi.org/10.48550/arXiv.2103.03117.
M. L. Prayugo, D. A. Wibowo, M. S. Hidajat, E. Mintorini, dan R. R. Ali, “Data Mining Application for Analyzing Pattern of Customer Purchase Using Apriori Algorithm,” 2024.
G. G. Pessanha dan E. A. Soares, “Apenas uma postagem? previsões de vendas diárias de empresas varejistas de beleza e cosmético a partir da influência de mídias sociais,” ReMark - Rev. Bras. Mark., vol. 20, no. 4, hlm. 241–266, Nov 2021, doi: 10.5585/remark.v20i4.17914.
H. Jain, V. Dattpalsinh, S. K. Ray, dan Dr. Vishal, “Sales Prediction using Machine Learning,” dalam Proceedings of the KILBY 100 7th International Conference on Computing Sciences 2023 (ICCS 2023), India: SSRN / KILBY 100 Committee, Apr 2024, hlm. 1–5. doi: http://dx.doi.org/10.2139/ssrn.4495850.
F. S. Aditama, D. Krismawati, dan S. Pramana, “MULTICLASS CLASSIFICATION OF MARKETPLACE PRODUCTS WITH MACHINE LEARNING,” MEDIA Stat., vol. 17, no. 1, hlm. 25–35, Okt 2024, doi: 10.14710/medstat.17.1.25-35.
F. Fiddin, M. Y. Syahbarna, dan M. Ridwan, “Penggunaan Supervised Learning untuk Prediksi Validitas Ulasan Negatif Aplikasi Tokopedia Berdasarkan Pengalaman Pengguna Ahli,” J. SAINTIKOM J. Sains Manaj. Inform. Dan Komput., vol. 23, no. 2, hlm. 409–417, Agu 2024, doi: 10.53513/jis.v23i2.10030.
M. Syukron, R. Santoso, dan T. Widiharih, “Perbandingan Metode Smote Random Forest Dan Smote Xgboost Untuk Klasifikasi Tingkat Penyakit Hepatitis C Pada Imbalance Class DatA,” J. Gaussian, vol. 9, no. 3, hlm. 227–236, Agu 2020, doi: 10.14710/j.gauss.v9i3.28915.
E. Erlin, Y. Desnelita, N. Nasution, L. Suryati, dan F. Zoromi, “Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang,” MATRIK J. Manaj. Tek. Inform. Dan Rekayasa Komput., vol. 21, no. 3, hlm. 677–690, Jul 2022, doi: 10.30812/matrik.v21i3.1726.
H. A. Fatan, T. Widiharih, Dan Sudarno, “Klasifikasi Kualitas Kopi Arabika Dengan Metode Random Forest Dan K-Nearest Neighbor Pada Imbalanced Dataset,” vol. 14, no. 1, 2025.
E. Constancio dan K. D. Tania, “Penerapan Metode Supervised Learning dan Teknik Resampling untuk Prediksi Penipuan Transaksi Keuangan,” Build. Inform. Technol. Sci. BITS, vol. 6, no. 3, hlm. 1427–1439, Des 2024, doi: 10.47065/bits.v6i3.6110.
D. S. Jayanthi, D. T. S. Kumari, S. Inturi, D. B. Nathan, J. Sathya, dan D. K. Karmakonda, “Predicting E-Commerce Revenue with SHAP Insights: A Comparative Study of SMOTE-Enhanced Machine Learning Models,” Panam. Math. J., vol. 35, no. 4, 2025.
M. M. R. Mubarak, Y. H. Chrisnanto, dan P. N. Sabrina, “Enrichment: Journal of Multidisciplinary Research and Development,” 2023.
E. Yolanda, “Penerapan Algoritma K-Means Clustering Untuk Pengelompokan Data Pasien Rehabilitasi Narkoba,” vol. 4, no. 1, hlm. 183, 2023, doi: 10.30865/klik.v4i1.1107.
O. O. Mustapha dan Dr. T. Sithole, “Forecasting Retail Sales using Machine Learning Models,” Am. J. Stat. Actuar. Sci., vol. 6, no. 1, hlm. 35–67, Apr 2025, doi: 10.47672/ajsas.2679.
P. Ganguly dan I. Mukherjee, “Enhancing Retail Sales Forecasting with Optimized Machine Learning Models,” dalam 2024 4th International Conference on Sustainable Expert Systems (ICSES), Okt 2024, hlm. 884–889. doi:10.1109/ICSES63445.2024.10762950.
K. T. Kizgin, S. Alp, N. Aydin, dan H. Yu, “Machine learning-based sales forecasting during crises: Evidence from a Turkish women’s clothing retailer,” Sci. Prog., vol. 108, no. 1, hlm. 00368504241307719, Jan 2025, doi: 10.1177/00368504241307719.