THE ROLE OF FEATURE SELECTION IN ENHANCING THE ACCURACY OF AI ASSISTANT AUTO-LABELING

Indri Tri Julianto; Dede Kurniadi; Benedicto B. Balilo Jr; Fauza Rohman

doi:10.33330/jurteksi.v11i1.3364

Indri Tri Julianto Institut Teknologi Garut https://orcid.org/0000-0003-1959-1106
Dede Kurniadi Institut Teknologi Garut
Benedicto B. Balilo Jr Bicol University
Fauza Rohman Institut Teknologi Garut

DOI: https://doi.org/10.33330/jurteksi.v11i1.3364

Abstract

Abstract: The development of AI assistants such as Gemini and ChatGPT can significantly assist in daily human tasks. In the field of Sentiment Analysis, AI assistants can be utilized as an automated labeling alternative to provide positive, negative, or neutral sentiments within a dataset. This research aims to enhance the performance of AI assistants in automated labeling processes by employing the Feature Selection algorithm, specifically Forward Selection. The methodology involves utilizing the NaÃ¯ve Bayes and K-NN algorithms, and subsequently improving accuracy through the Feature Selection algorithm. The evaluation is conducted using K-Fold Cross Validation. Research findings indicate an improvement in the accuracy of the best model, which is ChatGPT, when using the NaÃ¯ve Bayes algorithm and Shuffled Sampling technique. The initial accuracy of 79.09% increased to 87.18% after Feature Selection was applied. This demonstrates the effectiveness of Feature Selection, particularly Forward Selection, in enhancing the accuracy performance of the model.

Keywords: ai; assistant; chat gpt; feature selection; gemini.

Abstrak: Pekembangan Asisten AI seperti Gemini dan Chat GPT dapat membantu pekerjaan manusia sehari-hari. Dalam bidang Analisis Sentimen, Asisten AI dapat digunakan sebagai alternatif pelabelan otomatis untuk memberikan sentimen positif, negatif atau netral dalam suatu dataset. Penlitian ini bertujuan untuk meningkatkan performa yang dihasilkan oleh Asisten AI dalam proses pelabelan otomatis menggunakan Algortima Feature Selection yaitu Forward Selection. Metode yang digunakan adalah dengan menggunakan Algoritma NaÃ¯ve Bayes dan K-NN kemudian hasil akurasi akan ditingkatkan menggunkan Algoritma Feature Selection. Evaluasi yang digunakan adalah K-Fold Cross Validation. Hasil penelitian menunjukkan peningkatan akurasi model terbaik berada pada Chat GPT dengan menggunakan Algoritma NaÃ¯ve Bayes dan Teknik Shuffled Sampling, dari nilai akurasi awal sebesar 79.09%, setelah ditingkatkan menggunakan Feature Selection, maka nilai akurasinya meningkat menjadi 87.18%. Hal ini membuktikan peran Feature Selection, dimana yang digunakan adalah Forward Selection dalam meningkatkan akurasi ternyata memang efektif dalam meningkatkan performa akurasi model.

Kata kunci: ai; assisten; chat gpt; feature selection; gemini

References

N. Fitriyah, B. Warsito, and D. A. I. Maruddani, â€œAnalisis Sentimen Gojek Pada Media Sosial Twitter Dengan Klasifikasi Support Vector Machine (SVM),â€ J. Gaussian, vol. 9, no. 3, pp. 376â€“390, 2020, doi: 10.14710/j.gauss.v9i3.28932.

P. A. Telnoni, Suryatiningsih, and E. Rosely, â€œPelabelan Data Dengan Latent Dirichlet Allocation dan K-Means Clustering pada Data Twitter Menggunakan Bahasa Indonesia Data Labeling using Latent Dirichlet Allocation and K-Means Clustering on Indonesian-Based Twitter,â€ J. Elektro Telekomun. Terap., vol. 7, no. 2, pp. 885â€“892, 2020.

Aditya Quantano Surbakti, Regiolina Hayami, and Januar Al Amien, â€œAnalisa Tanggapan Terhadap PSBB Di Indonesia Dengan Algoritma Decision Tree Pada Twitter,â€ J. CoSciTech (Computer Sci. Inf. Technol., vol. 2, no. 2, pp. 91â€“97, 2021, doi: 10.37859/coscitech.v2i2.2851.

A. Ahmad and W. Gata, â€œSentimen Analisis Masyarakat Indonesia di Twitter Terkait Metaverse dengan Algoritma Support Vector Machine,â€ J. JTIK (Jurnal Teknol. Inf. dan Komunikasi), vol. 6, no. 4, pp. 548â€“555, 2022, doi: 10.35870/jtik.v6i4.569.

R. A. Sekarwati, A. Sururi, Rakhmat, M. Arifin, and A. Wibowo, â€œSurvei Metode Pengujian Chatbot pada Media Sosial untuk Mengukur Tingkat Akurasi,â€ J. SISFOTENIKA, vol. 11, no. 2, pp. 172â€“182, 2021.

I. T. Julianto, D. Kurniadi, and B. B. B. Jr, â€œEnhancing Sentiment Analysis With Chatbots : A Comparative Study Of Text Pre-Processing,â€ JUTIF, vol. 4, no. 6, pp. 1419â€“1430, 2023.

M. Dowling and B. Lucey, â€œChatGPT for (Finance) research: The Bananarama Conjecture,â€ Financ. Res. Lett., no. 103662, pp. 1â€“20, 2023, doi: 10.1016/j.frl.2023.103662.

I. T. Julianto, D. Kurniadi, Y. Septiana, and A. Sutedi, â€œAlternative Text Pre-Processing using Chat GPT Open AI,â€ Janapati, vol. 12, no. 1, pp. 67â€“77, 2023, [Online]. Available: https://wjaets.com/content/artificial-intelligence-ai-based-chatbot-study-chatgpt-google-ai-bard-and-baidu-ai.

S. Singh, S. Tiwari, and P. K. Yadav, â€œChat GPT : Exploring The Capabilities And Limitations Of A Large Language,â€ Int. J. Eng. Appl. Sci. Technol., vol. 7, no. 12, pp. 111â€“115, 2023.

OpenAI, â€œChatGPT: Optimizing Language Models for Dialogue,â€ openai.com, 2022. https://openai.com/blog/chatgpt/.

Ã–. AydÄ±n and E. Karaarslan, â€œOpenAI ChatGPT Generated Literature Review: Digital Twin in Healthcare,â€ SSRN Electron. J., vol. 2, pp. 22â€“31, 2022, doi: 10.2139/ssrn.4308687.

I. Ubaedi and Y. M. Djaksana, â€œOptimasi Algoritma C4.5 Menggunakan Metode Forward Selection Dan Stratified Sampling Untuk Prediksi Kelayakan Kredit,â€ JSiI (Jurnal Sist. Informasi), vol. 9, no. 1, pp. 17â€“26, 2022, doi: 10.30656/jsii.v9i1.3505.

D. Kurniadi, F. Nuraeni, and S. M. Lestari, â€œImplementasi Algoritma NaÃ¯ve Bayes Menggunakan Feature Forward Selection dan SMOTE Untuk Memprediksi Ketepatan Masa Studi Mahasiswa Sarjana,â€ J. Sist. Cerdas, vol. 05, no. 02, pp. 63â€“82, 2022.

I. T. Julianto, D. Kurniadi, F. A. Fauziah, and R. Rohmanto, â€œImprovement of Data Mining Models using Forward Selection and Backward Elimination with Cryptocurrency Datasets,â€ J. Appl. Intell. Syst., vol. 8, no. 1, pp. 100â€“109, 2023.

Junadhi, Agustin, M. Rifqi, and M. K. Anam, â€œSentiment Analysis Of Online Lectures Using K-Nearest Neighbors Based On Feature Selection,â€ Janapati, vol. 11, no. 3, pp. 216â€“225, 2022.

J. Watori, R. Aryanti, and A. Junaidi, â€œPenggunaan Algoritma Klasifikasi Terhadap Analisa Sentimen Pemindahan Ibukota Dengan Pelabelan Otomatis,â€ J. Inform., vol. 7, no. 1, pp. 85â€“90, 2020.

I. F. Ashari, â€œAnalysis Sentiments In Facebook Down Case Using Vader And Naive Bayes Classification Method,â€ Multitek Indones. J. Ilm., vol. 16, no. 2, pp. 75â€“89, 2023.

Y. Asri, W. N. Suliyanti, D. Kuswardani, and M. Fajri, â€œPelabelan Otomatis Lexicon Vader dan Klasifikasi Naive Bayes dalam menganalisis sentimen data ulasan PLN Mobile,â€ PETIR J. Pengkaj. dan Penerapan Tek. Inform., vol. 15, no. 2, pp. 264â€“275, 2022.

A. Pebdika, R. Herdiana, and D. Solihudin, â€œKlasifikasi Menggunakan Metode Naive Bayes Untuk Menentukan Calon Penerima PIP,â€ JATI (Jurnal Mhs. Tek. Inform., vol. 7, no. 1, pp. 452â€“458, 2023.

M. K. Insan, U. Hayati, and O. Nurdiawan, â€œAnalisis Sentimen Aplikasi Brimo Pada Ulasan Pengguna Di Google Play Menggunakan Algoritma Naive Bayes,â€ JATI (Jurnal Mhs. Tek. Inform., vol. 7, no. 1, pp. 478â€“483, 2023.

S. R. Cholil, T. Handayani, R. Prathivi, and T. Ardianita, â€œImplementasi Algoritma Klasifikasi K-Nearest Neighbor (KNN) Untuk Klasifikasi Seleksi Penerima Beasiswa,â€ IJCIT (Indonesian J. Comput. Inf. Technol., vol. 6, no. 2, pp. 118â€“127, 2021.

H. Andriana, S. S. Hilabi, and A. Hananto, â€œPenerapan Metode K-Nearest Neighbor pada Sentimen Analisis Pengguna Twitter Terhadap KTT G20 di Indonesia,â€ JURIKOM (Jurnal Ris. Komputer), vol. 10, no. 1, pp. 60â€“67, 2023, doi: 10.30865/jurikom.v10i1.5427.

A. Prasetya, F. Ferdiansyah, Y. N. Kunang, E. S. Negara, and W. Chandra, â€œSentiment Analisis Terhadap Cryptocurrency Berdasarkan Comment Dan Reply Pada Platform Twitter,â€ J. Inf. Syst. Informatics, vol. 3, no. 2, pp. 268â€“277, 2021, doi: 10.33557/journalisi.v3i2.124.

R. Rinandyaswara, Y. A. Sari, and M. T. Furqon, â€œPembentukan Daftar Stopword Menggunakan Term Based Random Sampling Pada Analisis Sentimen Dengan Metode NaÃ¯ve Bayes ( Studi Kasus : Kuliah Daring Di Masa Pandemi ),â€ J. Teknol. Inf. dan Ilmu Komput., vol. 9, no. 4, pp. 717â€“724, 2022, doi: 10.25126/jtiik.202294707.

M. U. Albab, Y. K. P, and M. N. Fawaiq, â€œOptimization of the Stemming Technique on Text preprocessing President 3 Periods Topic,â€ J. Transform., vol. 20, no. 2, pp. 1â€“10, 2023.

I. T. Julianto, D. Kurniadi, M. R. Nashrulloh, and A. Mulyani, â€œComparison Of Classification Algorithm And Feature Selection in Bitcoin Sentiment Analysis,â€ JUTIF, vol. 3, no. 3, pp. 739â€“744, 2022.

K. Ayuningsih, Y. A. Sari, and P. P. Adikara, â€œKlasifikasi Citra Makanan Menggunakan HSV Color Moment dan Local Binary Pattern dengan NaÃ¯ve Bayes Classifier,â€ J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 3, no. 4, pp. 3166â€“3173, 2019.

A. Y. Pratama, Y. Umaidah, and A. Voutama, â€œAnalisis Sentimen Media Sosial Twitter Dengan Algoritma K-Nearest Neighbor dan Seleksi Fitur Chi-Square (Kasus Omnibus Law Cipta Kerja),â€ Sains Komput. Inform., vol. 5, no. 2, pp. 897â€“910, 2021, [Online]. Available: https://tunasbangsa.ac.id/ejurnal/index.php/jsakti/article/view/386/365.

N. S. Rosli, M. F. Mustapha, M. Madihah, M. Azmee, and N. A. Mohd, â€œSentiment Analysis on TikTok Using RapidMiner,â€ Appl. Math. Comput. Intell., vol. 11, no. 1, pp. 360â€“372, 2022.