Doðal dil iþlemede (NLP) konu modelleme, oldukça önemli ve geniþ kapsamlý bir alandýr. Çünkü her dilin kendine özgü zorlayýcý farklý alt problemlerini içerisinde barýndýrmaktadýr. Son 10 sene içerisinde konu modelleme üzerine yapýlan çalýþmalarda bir artýþ olmuþtur. Fakat Türkçe dili ile ilgili yapýlan çalýþmalarý, inceleyen bir araþtýrma çalýþmasý yapýlmamýþtýr.
Bu çalýþma ile literatürde Türk dil özelliklerini dikkate alarak geliþtirilen çalýþmalar ilk defa derinlemesine incelenmiþtir. Türk dil yapýsýnda konu modellenemede karþýlaþýlan alt problemler ortaya konmuþtur. Ayrýca Türkçe konu modelleme ile ilgili oluþturulan verisetleri ele alýnmýþtýr.
Bu çalýþma kapsamýnda incelenen Türkçe dili üzerinde konu modelleme çalýþmalarýnýn büyük çoðunluðunun LDA (Latent Dirichlet Allocation) yöntemi ile yapýldýðý tespit edilmiþtir. Diðer konu modelleme yöntemleri olan LSA (Latent Semantic Analysis) ve NNMF (Non-Negative Matrix Factorization) üzerinde ise çok az çalýþma yapýlmýþtýr.
Konu modelleme ile ilgili oluþturulan verisetlerinden sadece birkaçýnýn internet üzerinde herkese açýk bir þekilde paylaþýldýðý görülmüþtür. Konu modelleme yöntemlerinden LDA’da konu sayýsýnýn önceden bilinmesine gerek olduðu, konu modelleme yöntemlerinden LSA’nýn daha baþarýlý sonuçlar verdiði tespit edilmiþtir. Sonuç olarak, konu sayýsýnýn belli olmadýðý durumlarda ve bununla birlikte daha yüksek doðruluk oranýna sahip olunmasý için Türk dil yapýsýnda LSA yönteminin daha uygun olduðu görülmüþtür.
Bu çalýþma ile Türkçe üzerinde konu modelleme çalýþmasý yapacak araþtýrmacýlara önemli bir yol haritasý sunulmuþtur.
Anahtar Kelimeler: Doðal Dil Ýþleme, Konu modelleme, LSA, LDA, NNMF, Gizli Anlamsal Analiz
|