BİLDİRİLER

BİLDİRİ DETAY

Ulviyya GOZALİ, Seçkin YILMAZ
TÜRK DİLİ ÜZERİNE YAPAY ZEKA TABANLI KONU MODELLEMELERİ
 
Doğal dil işlemede (NLP) konu modelleme, oldukça önemli ve geniş kapsamlı bir alandır. Çünkü her dilin kendine özgü zorlayıcı farklı alt problemlerini içerisinde barındırmaktadır. Son 10 sene içerisinde konu modelleme üzerine yapılan çalışmalarda bir artış olmuştur. Fakat Türkçe dili ile ilgili yapılan çalışmaları, inceleyen bir araştırma çalışması yapılmamıştır. Bu çalışma ile literatürde Türk dil özelliklerini dikkate alarak geliştirilen çalışmalar ilk defa derinlemesine incelenmiştir. Türk dil yapısında konu modellenemede karşılaşılan alt problemler ortaya konmuştur. Ayrıca Türkçe konu modelleme ile ilgili oluşturulan verisetleri ele alınmıştır. Bu çalışma kapsamında incelenen Türkçe dili üzerinde konu modelleme çalışmalarının büyük çoğunluğunun LDA (Latent Dirichlet Allocation) yöntemi ile yapıldığı tespit edilmiştir. Diğer konu modelleme yöntemleri olan LSA (Latent Semantic Analysis) ve NNMF (Non-Negative Matrix Factorization) üzerinde ise çok az çalışma yapılmıştır. Konu modelleme ile ilgili oluşturulan verisetlerinden sadece birkaçının internet üzerinde herkese açık bir şekilde paylaşıldığı görülmüştür. Konu modelleme yöntemlerinden LDA’da konu sayısının önceden bilinmesine gerek olduğu, konu modelleme yöntemlerinden LSA’nın daha başarılı sonuçlar verdiği tespit edilmiştir. Sonuç olarak, konu sayısının belli olmadığı durumlarda ve bununla birlikte daha yüksek doğruluk oranına sahip olunması için Türk dil yapısında LSA yönteminin daha uygun olduğu görülmüştür. Bu çalışma ile Türkçe üzerinde konu modelleme çalışması yapacak araştırmacılara önemli bir yol haritası sunulmuştur.

Anahtar Kelimeler: Doğal Dil İşleme, Konu modelleme, LSA, LDA, NNMF, Gizli Anlamsal Analiz



 


Keywords: