PREDICTING TEA HARVEST PRODUCTION AT BAH BUTONG USING RANDOM FOREST AND HISTORICAL DATA
Abstract
Abstract: Accurate forecasts of tea harvest production are important for workforce planning, factory operations, and marketing decisions, yet conventional estimation in plantations often relies on field experience and can be biased and less adaptive to changing conditions. This study aims to develop a Random Forest Regression model to predict tea harvest production at the Bah Butong tea plantation using historical operational and climate-related data. The dataset consists of 60 monthly records (2020–2024) with six predictor variables: rainfall (mm), number of rainy days, pest level, weed level, number of harvested trees and land area. Data were split into 80% training (48 samples) and 20% testing (12 samples). Model hyperparameters were optimized using RandomizedSearchCV with RepeatedKFold cross-validation (5 folds, 3 repeats). The tuned model achieved MSE of 668,980,524.45, RMSE of 25,864.66 kg, MAE of 19,838.69 kg, and MAPE of 7.59% on the test set. The results indicate that the model can provide practical production estimates, with errors averaging about 7–8% of the actual production. Feature importance analysis shows that the number of harvested tea bushes and cultivated area contribute most to predictions. Future work should extend the historical period and incorporate time-based features (seasonality/lag) for improved forecasting.
Keywords: hyperparameter tuning; production prediction; random forest; regression; tea harvest
Abstrak: Perkiraan akurat produksi panen teh sangat penting untuk perencanaan tenaga kerja, operasional pabrik, dan keputusan pemasaran, namun estimasi konvensional di perkebunan seringkali bergantung pada pengalaman lapangan dan dapat bias serta kurang adaptif terhadap perubahan kondisi. Studi ini bertujuan untuk mengembangkan model Regresi Random Forest untuk memprediksi produksi panen teh di perkebunan teh Bah Butong menggunakan data operasional dan data terkait iklim historis. Dataset terdiri dari 60 catatan bulanan (2020–2024) dengan enam variabel prediktor: curah hujan (mm), jumlah hari hujan, tingkat hama, tingkat gulma, jumlah pokok panen, dan luas lahan. Data dibagi menjadi 80% data pelatihan (48 sampel) dan 20% data pengujian (12 sampel). Parameter model dioptimalkan menggunakan RandomizedSearchCV dengan validasi silang RepeatedKFold (5 lipatan, 3 pengulangan). Model yang telah disempurnakan mencapai MSE sebesar 668.980.524,45, RMSE sebesar 25.864,66 kg, MAE sebesar 19.838,69 kg, dan MAPE sebesar 7,59% pada set data uji. Hasil tersebut menunjukkan bahwa model dapat memberikan estimasi produksi yang praktis, dengan kesalahan rata-rata sekitar 7–8% dari produksi aktual. Analisis kepentingan fitur menunjukkan bahwa jumlah semak teh yang dipanen dan luas lahan budidaya paling berkontribusi pada prediksi. Pekerjaan selanjutnya harus memperpanjang periode historis dan menggabungkan fitur berbasis waktu (musiman/lag) untuk peramalan yang lebih baik.
Kata kunci: panen teh; prediksi produksi; random forest; regresi; tuning parameter
References
[2] I. N. Deva, H. Cipta, F. Rakhmawati, U. Islam, and N. Sumatera, "PTPN IV Unit Bah Butong menggunakan," pp. 1103-1114, Aug. 2024.
[3] L. Long, Y. Shi, L. Ma, and J. Ruan, "Characterization of young shoot population, yield, and nitrogen demands of tea (Camellia sinen-sis L.) harvested under different standards," 2023.
[4] S. Suhadi, F. Mabruroh, A. Wiyanto, and I. Ikra, "Analisis fenomena perubahan iklim terhadap curah hujan ekstrim," OPTIKA: Jurnal Pendidikan Fisika, vol. 7, no. 1, pp. 94-100, 2023, doi: 10.37478/optika.v7i1.2738.
[5] R. Affairs, C. M. Rahayu, S. Zaman, and A. W. Ritonga, "Manajemen pemanenan kelapa sawit (Elaeis guineensis Jacq.) di Kebun Tan-dun, Kabupaten Kampar, Riau," vol. 12, no. 2, pp. 266-275, 2024.
[6] N. Afrilia S., F. Az-Zahra, and P. Prajoko, "Prediksi hasil panen wortel menggunakan algoritma regresi linear berganda," JATI (Jurnal Mahasiswa Teknik In-formatika), vol. 8, no. 5, pp. 10255-10262, 2024, doi: 10.36040/jati.v8i5.10954.
[7] R. Andia, K. Kaslani, S. Eka Per-mana, and T. Handayani, "Pera-malan hasil panen padi Kabupat-en Cirebon menggunakan algo-ritma regresi linear berganda," JATI (Jurnal Mahasiswa Teknik Informatika), vol. 8, no. 1, pp. 738-747, 2024, doi: 10.36040/jati.v8i1.8446.
[8] G. James, D. Witten, T. Hastie, R. Tibshirani, and J. Taylor, "Statis-tical Learning 2.1," pp. 1-2, 2023.
[9] F. Al Farikhi and R. W. D. Pramono, "Perbandingan algoritma classi-fication and regression tree (CART) dan random forest (RF) untuk klasifikasi penggunaan la-han pada Google Earth Engine," Jurnal Spatial Wahana Komu-nikasi dan Informasi Geografi, vol. 23, no. 2, pp. 170-179, 2023, doi: 10.21009/spatial.232.09.
[10] R. I. Arumnisaa and A. W. Wijayan-to, "Comparison of ensemble learning method: Random Forest, support vector machine, Ada-Boost for classification human development index (HDI)," Sistemasi, vol. 12, no. 1, p. 206, 2023, doi: 10.32520/stmsi.v12i1.2501.
[11] M. Huda, "Penerapan metode ran-dom forest pada prediksi penilaian nilai aset KJPP SIG Malang berbasis web," vol. 183, no. 2, pp. 153-164, 2023.
[12] M. R. S. Alfarizi, M. Z. Al-Farish, M. Taufiqurrahman, G. Ardian-sah, and M. Elgar, "Penggunaan Python sebagai bahasa pem-rograman untuk machine learning dan deep learning," Karya Ilmiah Mahasiswa Bertauhid (KARI-MAH TAUHID), vol. 2, no. 1, pp. 1-6, 2023.
[13] R. Guntara, "Pemanfaatan Google Colab untuk aplikasi pendetek-sian masker wajah menggunakan algoritma deep learning YOLOv7," Jurnal Teknologi dan Sistem Informasi Bisnis, vol. 5, no. 1, pp. 55-60, 2023, doi: 10.47233/jteksis.v5i1.750.
[14] M. Waruwu, S. N. Pu`at, P. R. Utami, E. Yanti, and M. Rusyd-iana, "Metode penelitian kuanti-tatif: Konsep, jenis, tahapan dan kelebihan," Jurnal Ilmiah Profesi Pendidikan, vol. 10, no. 1, pp. 917-932, 2025, doi: 10.29303/jipp.v10i1.3057.








