Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
T.C. Maltepe Üniversitesi Lisansüstü Eğitim Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Doğal dilleri anlamaya yönelik yapılan ilk sembolik yaklaşımlar insanlar tarafından yazılan kuralları kullanarak metnin anlamını yakalamaya çalışmaktadır. Ancak bu tür kural tabanlı sistemlerin kırılgan oldukları, tasarlandıkları belirli alanlarda sınırlı oldukları görülmüştür. Son 20 yılda, doğal dil işlemede istatiksel bir yaklaşım yaygınlaşmıştır. Bu sistem otomatik olarak matematiksel modeller kullanarak verilerden kurallar öğrenebilmektedir. Bu tezde kelime anlamı belirginleştirme görevinde kullanılabilecek derin öğrenme çalışmaları ve algoritmaları incelenmiş ve bir Türkçe işaretlenmiş veri seti üzerinde deneyler yapılmıştır. Önceki birkaç çalışma ile karşılaştırma yapabilmek için SemEval-2007 çalıştayındaki Türkçe çalışmada kullanılan veriler kullanılmıştır. Bu tez çalışması beş bölümden oluşmaktadır. İlk bölümde kelime anlamı belirginleştirmenin kısa bir özeti verilmektedir. Ardından tez kapsamında çözülmek istenilen problem, bu problemi çözmemizdeki amaç, problem hakkında yapılan varsayımlar ve sınırlıklar verilmektedir. İkinci bölümde ise Türkçe ve yabancı dillerdeki kelime anlamı belirginleştirme çalışmaları ile ilgili literatür çalışmalarına yer verilmektedir. Üçüncü bölümde, ilk olarak bu çalışmada kullanılan veya bu çalışmayla ilgili olan tanımlara yer verilmektedir. Devamında ise verilerin toplanmasına, analizine ve yorumlanmasına yer verilmektedir. Verilerin toplanması üzerine olan bölümde SemEval-2007 Türkçe çalışmasında kullanılan kelimelerin ve özelliklerin detaylarına yer verilmektedir. Verilerin çözümlenmesi ve yorumlanması kısmında ise ilk önce çalışmada kullanılan kelimeler ve özelliklerin nasıl bir yapıda kullanıldığı ve geçirildikleri ön işlem aşamaları anlatılmaktadır. Ardından bu verilerin girdi olarak verileceği yapay sinir ağı modelleri ve bu modeller ile yapılan eğitim aşamaları ve bu aşamaların sonuçların analizi üzerinde detaylı anlatım yapılmaktadır. Son olarak, bu çalışmada sonuçlarının analizinde kullanılacak metrikler ve detayları anlatılmıştır. Dördüncü bölümde ise derin öğrenme modelleri kullanılarak alınan sonuçların ağırlıklı ve makro ortalamaları ile SemEval-2007 Türkçe verileriyle önceki çalışmaların elde ettiği metrik değerlerine yer verilmiş olup ardından bu bulgular yorumlanmıştır. Beşinci bölümde ise yapılan bu çalışma genel hatlarıyla özetlenmiş ve ileride yapılabilecek çalışmalar için öneriler verilmiştir.
Early symbolic approaches to understanding natural languages attempted to capture the meaning of text using rules is written by humans. However, such rule-based systems have proved to be fragile and limited in the specific areas for which they were designed. In the last 20 years, a statistical approach to natural language processing has become widespread. This system can automatically learn rules from data using mathematical models. In this thesis, deep learning studies and algorithms that can be used in word sense disambiguation task are investigated and experiments are conducted on a labeled Turkish dataset. Data from the Turkish study in SemEval-2007 is used in order to make comparisons with several previous studies. This thesis consists of five chapters. In the first chapter, a summary of word sense disambiguation is given. Then, the problem to be solved within the scope of the thesis, the purpose of solving this problem, the assumptions made about the problem and the limitations are given. In the second chapter, literature studies on word sense disambiguation studies in Turkish and foreign languages are given. In the third section, firstly, the definitions used in this study or related to this study are given. Afterwards, data collection, analysis and interpretation are given. In the section on data collection, details of the words and features used in the SemEval-2007 Turkish study are given. In the data analysis and interpretation section, firstly, the structure of the words and features used in the study and the pre-processing stages they have undergone are explained. Then, the artificial neural network models to which these data will be given as input, the training stages with these models and the analysis of the results of these stages are explained in detail. Finally, the metrics to be used in the analysis of the results of this study and their details are explained. In the fourth section, the weighted and macro averages of the results obtained using deep learning models and the metric values obtained by previous studies with the SemEval-2007 Turkish data are given and then these findings are interpreted. In the fifth section, this study is summarized in general terms and suggestions for future studies are given.
Early symbolic approaches to understanding natural languages attempted to capture the meaning of text using rules is written by humans. However, such rule-based systems have proved to be fragile and limited in the specific areas for which they were designed. In the last 20 years, a statistical approach to natural language processing has become widespread. This system can automatically learn rules from data using mathematical models. In this thesis, deep learning studies and algorithms that can be used in word sense disambiguation task are investigated and experiments are conducted on a labeled Turkish dataset. Data from the Turkish study in SemEval-2007 is used in order to make comparisons with several previous studies. This thesis consists of five chapters. In the first chapter, a summary of word sense disambiguation is given. Then, the problem to be solved within the scope of the thesis, the purpose of solving this problem, the assumptions made about the problem and the limitations are given. In the second chapter, literature studies on word sense disambiguation studies in Turkish and foreign languages are given. In the third section, firstly, the definitions used in this study or related to this study are given. Afterwards, data collection, analysis and interpretation are given. In the section on data collection, details of the words and features used in the SemEval-2007 Turkish study are given. In the data analysis and interpretation section, firstly, the structure of the words and features used in the study and the pre-processing stages they have undergone are explained. Then, the artificial neural network models to which these data will be given as input, the training stages with these models and the analysis of the results of these stages are explained in detail. Finally, the metrics to be used in the analysis of the results of this study and their details are explained. In the fourth section, the weighted and macro averages of the results obtained using deep learning models and the metric values obtained by previous studies with the SemEval-2007 Turkish data are given and then these findings are interpreted. In the fifth section, this study is summarized in general terms and suggestions for future studies are given.
Açıklama
Anahtar Kelimeler
Derin öğrenme, Doğal dil işleme, Kelime anlamı belirginleştirme, SemEval-2007, Deep learning, Natural language processing, Word sense disambiguation, BERT, SemEval-2007
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Gümüşdağ, T. (2023). Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması / A word sense disambiguation application on Turkish language using deep learning. (Yayımlanmamış Yüksek Lisans Tezi). Maltepe Üniversitesi, Lisansüstü Eğitim Enstitüsü, İstanbul.