ALGORITMA OKAPI BM25 DALAM SISTEM PENCARIAN INFORMASI BERBASIS TEKS
Abstract
BM25 (Best Matching 25), atau yang dikenal sebagai Okapi BM25, adalah algoritma pemeringkatan dokumen yang banyak digunakan dalam sistem pencarian informasi berbasis teks karena pendekatannya yang probabilistik dan kemampuannya dalam menangani pencocokan kueri terhadap dokumen dalam skala besar. Tidak seperti metode heuristik klasik seperti Term Frequency (TF) dan Term Frequency-Inverse Document Frequency (TF-IDF), BM25 memperhitungkan faktor seperti frekuensi kemunculan kata, panjang dokumen, dan distribusi kata dalam korpus untuk menghasilkan skor relevansi yang lebih akurat. Penelitian ini bertujuan untuk mengevaluasi efektivitas BM25 dalam konteks bahasa Indonesia, dengan membandingkannya terhadap TF dan TF-IDF menggunakan dua dataset relevan, yaitu IndoQA dan IndoNLI. Sebanyak 1.000 pasangan kueri-dokumen dipilih sebagai sampel uji, dan seluruh teks mengalami proses pra-pemrosesan berupa tokenisasi, lowercasing, penghapusan tanda baca, stopword removal, dan stemming. Setiap model digunakan untuk menghasilkan peringkat 10 dokumen teratas, yang kemudian dievaluasi menggunakan metrik Precision@5, Mean Average Precision (MAP), dan Normalized Discounted Cumulative Gain (nDCG). Hasil eksperimen menunjukkan bahwa BM25 secara konsisten memberikan hasil terbaik dalam semua metrik evaluasi dibandingkan dengan dua metode lainnya, baik dari segi presisi maupun kualitas ranking. Temuan ini menegaskan bahwa BM25 tetap menjadi baseline yang kuat dan efisien dalam berbagai aplikasi pencarian informasi berbasis teks berbahasa Indonesia, serta memberikan dasar yang dapat diandalkan untuk pengembangan sistem pencarian cerdas berbasis bahasa alami.
Kata kunci: BM25, Pengambilan Informasi, Pembobotan Dokumen, TF-IDF, Bahasa Indonesia.
Full Text:
PDFReferences
Lin, J. (2021). The neural hype and comparisons against weak baselines. SIGIR Forum,54(2),24–29. https://doi.org/10.1145/3435470.3435473
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
Robertson, S. E., Walker, S., Beaulieu, M. M., Gatford, M., & Payne, A. (1995). Okapi at TREC-3. In Proceedings of the Third Text REtrieval Conference (TREC-3) (pp. 109–126). NIST.
Trotman, A., Kinney, J., & Geva, S. (2014). The SIGIR 2012 workshop on open source information retrieval. ACM SIGIR Forum,46(1),61–68. https://doi.org/10.1145/2491876.2491886
Robertson, S. E., & Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends® in Information Retrieval, 3(4), 333–389. https://doi.org/10.1561/1500000019
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management,24(5),513–523. https://doi.org/10.1016/0306-4573(88)90021-0
Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (4th ed. draft). https://web.stanford.edu/~jurafsky/slp4/
Prasetyo, Y. T., & Purwarianti, A. (2018). Overview of Indonesian Natural Language Processing. In Proceedings of the International Conference on Asian Language Processing (pp. 107–111). IEEE.
Santoso, A. B., & Indriani, P. (2020). Implementasi Algoritma BM25 pada Sistem Pencarian Dokumen Berbahasa Indonesia. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 7(2), 201–209.
Sari, Y., & Wibowo, A. (2019). Evaluasi Algoritma TF-IDF dan BM25 pada Sistem Pencarian Informasi Berbahasa Indonesia. Jurnal Ilmiah Komputer dan Informatika, 12(1), 45–54.
Santosa, P. I., & Wijaya, A. (2021). Studi Perbandingan Metode TF-IDF dan BM25 pada Sistem Pencarian Informasi Teks Berbahasa Indonesia. Jurnal Sistem Informasi, 17(2), 83–92.
Sastrawi. (2023). Sastrawi: Indonesian stemming library. https://github.com/sastrawi/sastrawi
Indriani, P., & Prasetyo, Y. T. (2019). Preprocessing Techniques for Indonesian Text in Information Retrieval Systems. Journal of Computer Science and Information Technology, 7(3), 15–22.
Ahmad, S., & Suhartono, D. (2017). Performance Evaluation of BM25 and TF-IDF for Text Retrieval in Indonesian Language. International Journal of Advanced Computer Science and Applications, 8(4), 123–129.
Prasetyo, Y. T., & Pranowo, E. (2020). Development of an Indonesian Question Answering System Using BM25 and TF-IDF. Procedia Computer Science, 157,147–154. https://doi.org/10.1016/j.procs.2019.09.024
Suryani, L., & Nindyo, E. A. (2018). Analisis Performa Algoritma BM25 untuk Sistem Pencarian Informasi Berbasis Bahasa Indonesia. Jurnal Teknologi dan Sistem Komputer, 6(3), 150–157.
Luhn, H. P. (1957). A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1(4), 309–317. https://doi.org/10.1147/rd.14.0309
DOI: http://dx.doi.org/10.53712/jic.v10i1.2649
Refbacks
- There are currently no refbacks.
Jurnal Ilmiah Terapan: 2580-488X
Jurnal Ilmiah Terapan: 2302-6227
Diindeks oleh:
Diterbitkan oleh Prodi Informatika - Teknik Informatika - Universitas Madura
Jl. Raya Panglegur Km 3,5 Pamekasan
Telepon: (0324) 322231
website: http://ejournal.unira.ac.id/index.php/insand_comtech/index
Surel : insandcomtech@unira.ac.id
InsandComtech oleh Universitas Madura dilisensikan di bawah Lisensi Creative Commons Atribusi 4.0 Internasional .