Analisis Prediktif Terhadap Kinerja Siswa dalam Ujian Menggunakan Algoritma Random Forest dan K-Nearest Neighbors

M. Amin; Deuis Astrida; Eling Sekar

doi:10.47134/jtp.v3i1.1835

Authors

M. Syaiful Amin Universitas Amikom Purwokerto
Deuis Nur Astrida Universitas Amikom Purwokerto
Eling Sekar Universitas Amikom Purwokerto

DOI:

https://doi.org/10.47134/jtp.v3i1.1835

Keywords:

Pendidikan, Analisis prediktif, Random Forest, K-Nearest Neighbors (KNN), Machine Learning

Abstract

Pendidikan adalah faktor utama dalam pengembangan suatu negara, dengan kinerja akademik siswa sebagai indikator penting dalam mengukur efektivitas sistem pendidikan. Penelitian ini menganalisis kinerja siswa dalam ujian menggunakan algoritma Random Forest dan K-Nearest Neighbors, menggunakan dataset 1000 entri data terkait nilai ujian dan variabel demografis. Proses preprocessing mencakup pembersihan data, transformasi data kategori menjadi numerik dengan Label Encoding, dan normalisasi data menggunakan Min-Max Scaling. Data dibagi menjadi dua set: data pelatihan (80%) dan data pengujian (20%). Model Random Forest dan K-Nearest Neighbors dibangun dan dioptimalkan menggunakan Grid Search, lalu dievaluasi dengan mean squared error (MSE) dan R-squared. Hasil penelitian menunjukkan bahwa algoritma Random Forest memiliki kinerja lebih baik dibandingkan K-Nearest Neighbors dalam memprediksi nilai writing score siswa. Random Forest mencapai MSE sebesar 0.0025 dan R-squared sebesar 0.9149, sementara K-Nearest Neighbors mencapai MSE sebesar 0.0133 dan R-squared sebesar 0.5533. Analisis feature importance dari Random Forest mengungkapkan bahwa nilai matematika, membaca, dan tingkat pendidikan orang tua merupakan faktor utama yang mempengaruhi kinerja siswa. Kesimpulan dari penelitian ini adalah bahwa algoritma Random Forest lebih efektif dalam memprediksi kinerja siswa dalam ujian. Penelitian ini memberikan wawasan berharga mengenai penggunaan algoritma pembelajaran mesin untuk prediksi kinerja siswa dan dapat digunakan sebagai dasar pengembangan model prediksi yang lebih baik di masa depan. Dengan memahami faktor-faktor utama yang mempengaruhi kinerja siswa, langkah-langkah yang tepat dapat diambil untuk meningkatkan kualitas pendidikan dan hasil belajar siswa.

References

Adnan, A., Zohriah, A., & Mu'in, A. (2024). Evaluasi kinerja tenaga pendidik. JIIP - Jurnal Ilmiah Ilmu Pendidikan, 7(2), 1463–1468. https://doi.org/10.54371/jiip.v7i2.3446 DOI: https://doi.org/10.54371/jiip.v7i2.3446

Ariyoga, D. (2022). Perbandingan metode seleksi fitur filter, wrapper, dan embedded pada klasifikasi data nirs mangga menggunakan Random Forest dan Support Vector Machine (SVM).

Cazarez, R. L. U., & Martin, C. L. (2018). Neural networks for predicting student performance in online education. IEEE Latin America Transactions, 16(7), 2053–2060. https://doi.org/10.1109/TLA.2018.8447376 DOI: https://doi.org/10.1109/TLA.2018.8447376

Cumel, S., Zamri, D., & Rahmaddeni. (2022). Perbandingan metode data mining untuk prediksi banjir dengan algoritma Naïve Bayes dan KNN. SENTIMAS: Seminar Nasional Penelitian dan Pengabdian kepada Masyarakat, 40–48. https://journal.irpi.or.id/index.php/sentimas/article/view/353

Efriadi, D., Rahmaddeni, R., Agustin, A., & Junadhi, J. (2022). Prediksi penambahan piutang iuran jaminan sosial ketenagakerjaan menggunakan algoritma K-Nearest Neighbor. Edumatic: Jurnal Pendidikan Informatika, 6(1), 49–57. https://doi.org/10.29408/edumatic.v6i1.5255 DOI: https://doi.org/10.29408/edumatic.v6i1.5255

Gori, T., Sunyoto, A., & Al Fatta, H. (2024). Preprocessing data dan klasifikasi untuk prediksi kinerja akademik siswa. Jurnal Teknologi Informasi dan Ilmu Komputer, 11(1), 215–224. https://doi.org/10.25126/jtiik.20241118074 DOI: https://doi.org/10.25126/jtiik.20241118074

Kumar, M. (2024). Utilizing Random Forest and XGBoost Data Mining Algorithms for Anticipating Students’ Academic Performance. International Journal of Modern Education and Computer Science, 16(2), 29-44, ISSN 2075-0161, https://doi.org/10.5815/ijmecs.2024.02.03 DOI: https://doi.org/10.5815/ijmecs.2024.02.03

Putri, S. J., Attaqwa, Q., Pratama, A., & Rahmaddeni. (2022). Klasifikasi menentukan jadwal kerja data karyawan menggunakan algoritma C4.5 dan K-nearest Neighbor. SENTIMAS: Seminar Nasional Penelitian dan Pengabdian kepada Masyarakat, 215–221. https://journal.irpi.or.id/index.php/sentimas

Rahmaddeni, S. K. M. K., Wulandari, S. K. M. K. D., Renova, M., Ramadhan, A. M. G., & Sari, R. (2024). Machine learning. Serasi Media Teknologi. https://books.google.co.id/books?id=owoOEQAAQBAJ

Rahmansyah, A., Dewi, O., Andini, P., Hastuti, T., Ningrum, P., & Suryana, M. E. (2018). Membandingkan pengaruh feature selection terhadap algoritma Naïve Bayes dan Support Vector Machine. Seminar Nasional Aplikasi Teknologi Informasi, 1907–5022.

Rajesh, P. (2021). Analysis of E-learner’s Opinion Using Automated Sentiment Analysis in E-learning and Comparison with Naive Bayes Classification, Random Forest and K-Nearest Neighbour Algorithms. Lecture Notes in Networks and Systems, 248, 265-277, ISSN 2367-3370, https://doi.org/10.1007/978-981-16-3153-5_30 DOI: https://doi.org/10.1007/978-981-16-3153-5_30

Religia, Y., Nugroho, A., & Hadikristanto, W. (2021). Analisis perbandingan algoritma optimasi pada Random Forest untuk klasifikasi data bank marketing. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), 5(1), 187–192. https://doi.org/10.29207/resti.v5i1.2813 DOI: https://doi.org/10.29207/resti.v5i1.2813

Sabita, S. A., & Yahfizham, Y. (2024). Penerapan algoritma klasifikasi nearest neighbor dalam mendeteksi penyakit diabetes. Jurnal Bintang Pendidikan dan Bahasa, 2(1), 149–158. https://doi.org/10.59024/bhinneka.v2i1.645 DOI: https://doi.org/10.59024/bhinneka.v2i1.645

Sabrina, J. A., & Mubayyinah, L. N. (2024). Optimalisasi pengambilan keputusan melalui analisis big data pada bidang kebijakan publik.

Saputra, E. P., Nurajizah, S., Maulidah, M., Hidayati, N., & Rahman, T. (2023). Komparasi machine learning berbasis PSO untuk prediksi tingkat keberhasilan belajar berbasis e-learning. Jurnal Teknologi Informasi dan Ilmu Komputer, 10(2), 321–328. https://doi.org/10.25126/jtiik.20231026469 DOI: https://doi.org/10.25126/jtiik.20236469

Setio, B., & Prasetyaningrum, P. (2021). Penerapan data mining dalam mengelompokkan kunjungan wisatawan di Kota Yogyakarta menggunakan metode K-Means. Jurnal Computer Science and Technology, 1(1), 27–32. https://doi.org/10.54840/jcstech.v1i1.9 DOI: https://doi.org/10.54840/jcstech.v1i1.9

Shan, K. (2025). A Study on Constraint-Related Fracture Toughness Prediction Based on Random Forest Algorithm and Data Enhancement Strategies. Guti Lixue Xuebao Acta Mechanica Solida Sinica, 46(1), 105-116, ISSN 0254-7805, https://doi.org/10.19636/j.cnki.cjsm42-1250/o3.2024.044

Vural, M.S. (2025). Classification of the Heartbeats in Electrocardiograms with K-Nearest Neighbors Algorithm, Random Forests, and Support Vector Machines - A Pilot Study. Lecture Notes in Networks and Systems, 1202, 177-184, ISSN 2367-3370, https://doi.org/10.1007/978-3-031-82143-1_20 DOI: https://doi.org/10.1007/978-3-031-82143-1_20

Zhang, P. (2025). Predicting response to anti-VEGF therapy in neovascular age-related macular degeneration using random forest and SHAP algorithms. Photodiagnosis and Photodynamic Therapy, 53, ISSN 1572-1000, https://doi.org/10.1016/j.pdpdt.2025.104635 DOI: https://doi.org/10.1016/j.pdpdt.2025.104635

Zulkifli, E. (2022). Pengaruh optimalisasi pembelajaran online, partisipasi mahasiswa dan gaya mengajar dosen terhadap motivasi belajar pada pembelajaran daring di tengah pandemi COVID-19 (Studi pada Kampus STIE Indonesia Jakarta). DOI: https://doi.org/10.25008/caraka.v3i1.51