Penerapan <i>Regular Expression</i> dan <i>Cosine Similarity</i> pada Uji Kemiripan Kalimat Bahasa Indonesia
PDF

Keywords

Cosine Similarity
Kemiripan Kalimat
Regular Expression

How to Cite

Penerapan Regular Expression dan Cosine Similarity pada Uji Kemiripan Kalimat Bahasa Indonesia. (2025). Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi), 9(1), 154-162. https://doi.org/10.29407/fq3vhb08

Abstract

Penelitian ini membahas sistem analisis kemiripan kalimat menggunakan metode cosine similarity dengan fokus pada optimasi tahap pra-pemrosesan. Masalah utama yang diangkat adalah kebutuhan untuk mengenali pola angka Romawi dalam teks yang sering muncul dalam penamaan kelas atau bab dokumen. Metode yang digunakan melibatkan proses case folding, tokenizing, filtering, stemming, serta penggunaan regular expression untuk mendeteksi angka Romawi. Hasil pengujian menunjukkan sistem berhasil mengonversi angka Romawi dengan akurat. Namun, ditemukan kelemahan dalam konteks linguistik, seperti kesalahan interpretasi huruf pada nama khas daerah yang menyerupai pola angka Romawi. Hal ini menunjukkan perlunya integrasi pendekatan berbasis konteks untuk meningkatkan akurasi sistem. Untuk pengembangan lebih lanjut, disarankan penggunaan metode pembobotan tambahan atau pendekatan berbasis BERT guna meningkatkan pemahaman semantik kalimat.

PDF

References

[1] Sugiyamta, “Sistem Deteksi Kemiripan Dokumen Dengan Algoritma Cosine Similarity Dan Single Pass Clustering,” Dinamika Informatika, vol. 7, no. 2, hlm. 85–91, 2015.

[2] A. Sanjaya dan S. D. Sasongko, “Uji Kemiripan Kalimat Menggunakan Fungsi Terbilang Pada Pre-Processing Dan Cosine Similarity Dalam Bahasa Indonesia Sentences Similarity Test Using Countable Function On Pre-Processing And Cosine In Indonesian,” Jurnal Ilmiah NERO, vol. 7, no. 2, hlm. 95–104, 2022.

[3] D. O. Sihombing, “Implementasi Natural Language Processing (NLP) dan Algoritma Cosine Similarity dalam Penilaian Ujian Esai Otomatis,” Jurnal Sistem Komputer dan Informatika (JSON), vol. 4, no. 2, hlm. 396, Des 2022, doi: 10.30865/json.v4i2.5374.

[4] R. S. Amardita, A. Adiwijaya, dan M. D. Purbolaksono, “Analisis Sentimen terhadap Ulasan Paris Van Java Resort Lifestyle Place di Kota Bandung Menggunakan Algoritma KNN,” JURIKOM (Jurnal Riset Komputer), vol. 9, no. 1, hlm. 62, Feb 2022, doi: 10.30865/jurikom.v9i1.3793.

[5] N. Nurwanda, N. Suarna, dan W. Prihartono, “PENERAPAN NLP (NATURAL LANGUAGE PROCESSING) DALAM ANALISIS SENTIMEN PENGGUNA TELEGRAM DI PLAYSTORE,” JATI (Jurnal Mahasiswa Teknik Informatika), vol. 8, no. 2, hlm. 1841–1846, Apr 2024, doi: 10.36040/jati.v8i2.8469.

[6] S. J. Angelina, A. B. Putra Negara, dan H. Muhardi, “Analisis Pengaruh Penerapan Stopword Removal Pada Performa Klasifikasi Sentimen Tweet Bahasa Indonesia,” Jurnal Aplikasi dan Riset Informatika, vol. 02, no. 01, hlm. 165–173, Agu 2023.

[7] Y. Yuhandri, R. Sovia, A. Syaiffullah, F. Yenila, dan R. Permana, “Penerapan Natural Language Processing Pada Sistem Chatbot Sebagai Helpdesk Obyek Wisata Menggunakan Metode Naïve Bayes,” Jurnal Infortech, vol. 5, no. 2, hlm. 210–218, Jan 2024, doi: 10.31294/infortech.v5i2.20911.

[8] M. S. H. Simarangkir, “STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA,” Jurnal Inkofar, vol. 1, no. 1, Agu 2017, doi: 10.46846/jurnalinkofar.v1i1.2.

[9] D. Nur Fadhillah dan A. Rachman, “Implementasi Regex Pada Pemberian Komentar Kode Program Html,” Jurnal Advance Research Informatika, vol. 2, no. 1, 2023, [Daring]. Tersedia pada: https://www.ejournalwiraraja.com/index.php/JARS

[10] S. Lumbansiantar, S. Dwiasnati, dan N. S. Fatonah, “Penerapan Metode Cosine Similarity dalam Mendeteksi Plagiarisme pada Jurnal,” 2023.

Creative Commons License

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Copyright (c) 2025 Ahmad Dzaky Hafidz Musta'in, Ardi Sanjaya, Ahmad Bagus Setiawan