Optimalisasi Latent Dirichlet Allocation untuk Ekstraksi Topik Utama dalam Teks Dongeng
PDF

Keywords

coherence score
dongeng
latent dirichlet allocation
pemodelan topik
prapemrosesan teks bahasa indonesia

How to Cite

Optimalisasi Latent Dirichlet Allocation untuk Ekstraksi Topik Utama dalam Teks Dongeng. (2025). Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi), 9(2), 1705-1712. https://doi.org/10.29407/xnbmr279

Abstract

Latent Dirichlet Allocation (LDA) adalah algoritma topic modeling yang bekerja tanpa label data dan sangat dipengaruhi oleh pra-pemrosesan dan pengaturan parameter. Penelitian ini bertujuan mengoptimalkan LDA untuk mengekstraksi topik utama dari 100 teks dongeng berbahasa Indonesia. Teks diproses menggunakan berbagai kombinasi teknik pra-pemrosesan seperti tokenisasi, stopword removal, stemming, dan normalisasi. Eksperimen dilakukan dengan memvariasikan jumlah topik (K) serta parameter alpha dan eta. Evaluasi menggunakan coherence score untuk menilai konsistensi semantik topik. Hasil terbaik diperoleh pada kombinasi pra-pemrosesan kedua dengan 15 topik, menghasilkan coherence score tertinggi sebesar 0,4885. Temuan ini menunjukkan bahwa pemilihan pra-pemrosesan dan parameter yang tepat dapat meningkatkan kualitas topik secara signifikan. Penelitian ini diharapkan mendukung pengembangan analisis topik pada teks naratif Indonesia.

PDF

References

[1] T. K. Landauer, F. Peter W., and D. and Laham, “An introduction to latent semantic analysis,” Discourse Process, vol. 25, no. 2–3, pp. 259–284, Jan. 2018, doi: 10.1080/01638539809545028.

[2] H. Jelodar et al., “Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey,” Multimed Tools Appl, vol. 78, no. 11, pp. 15169–15211, 2019, doi: 10.1007/s11042-018-6894-4.

[3] Thomas K. Landauer, Danielle S. McNamara, Simon Dennis, and Walter Kintsch, “Handbook of Latent Semantic Analysis,” Psychology Press, 2019.

[4] K. F. Nurdin, T. E. Sutanto, and A. Santoso, “Analisa Pemodelan Topik Berita Daring Menggunakan Semi-Supervised dan Fully Unsupervised Latent Dirichlet Allocation,” jptam, vol. 7, 2023, doi: https://doi.org/10.31004/jptam.v7i2.7506.

[5] C. D. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2018. doi: DOI: 10.1017/CBO9780511809071.

[6] M. Röder, A. Both, and A. Hinneburg, “Exploring the Space of Topic Coherence Measures,” in Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, in WSDM ’15. New York, NY, USA: Association for Computing Machinery, 2015, pp. 399–408. doi: 10.1145/2684822.2685324.

[7] J. Wintrode and S. Khudanpur, “Can You Repeat That? Using Word Repetition to Improve Spoken Term Detection,” in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), K. Toutanova and H. Wu, Eds., Baltimore, Maryland: Association for Computational Linguistics, Jun. 2014, pp. 1316–1325. doi: 10.3115/v1/P14-1124.

[8] F. Zhang, J. Yao, and R. Yan, “On the Abstractiveness of Neural Document Summarization,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, E. Riloff, D. Chiang, J. Hockenmaier, and J. Tsujii, Eds., Brussels, Belgium: Association for Computational Linguistics, Oct. 2018, pp. 785–790. doi: 10.18653/v1/D18-1089.

[9] C. D. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2013. doi: DOI: 10.1017/CBO9780511809071.

[10] G. Imin, M. Ablimit, H. Yilahun, and A. Hamdulla, “A Character String-Based Stemming for Morphologically Derivative Languages,” Information (Switzerland), vol. 13, no. 4, Apr. 2022, doi: 10.3390/info13040170.

Creative Commons License

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Copyright (c) 2025 Yosan Odhianto, Daniel Swanjaya, M.Kom, Julian Sahertian, M.Kom