Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması

Gümüşdağ, Tunç

Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması

Tarih

2023

Yazarlar

Gümüşdağ, Tunç

Yayıncı

T.C. Maltepe Üniversitesi Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Doğal dilleri anlamaya yönelik yapılan ilk sembolik yaklaşımlar insanlar tarafından yazılan kuralları kullanarak metnin anlamını yakalamaya çalışmaktadır. Ancak bu tür kural tabanlı sistemlerin kırılgan oldukları, tasarlandıkları belirli alanlarda sınırlı oldukları görülmüştür. Son 20 yılda, doğal dil işlemede istatiksel bir yaklaşım yaygınlaşmıştır. Bu sistem otomatik olarak matematiksel modeller kullanarak verilerden kurallar öğrenebilmektedir. Bu tezde kelime anlamı belirginleştirme görevinde kullanılabilecek derin öğrenme çalışmaları ve algoritmaları incelenmiş ve bir Türkçe işaretlenmiş veri seti üzerinde deneyler yapılmıştır. Önceki birkaç çalışma ile karşılaştırma yapabilmek için SemEval-2007 çalıştayındaki Türkçe çalışmada kullanılan veriler kullanılmıştır. Bu tez çalışması beş bölümden oluşmaktadır. İlk bölümde kelime anlamı belirginleştirmenin kısa bir özeti verilmektedir. Ardından tez kapsamında çözülmek istenilen problem, bu problemi çözmemizdeki amaç, problem hakkında yapılan varsayımlar ve sınırlıklar verilmektedir. İkinci bölümde ise Türkçe ve yabancı dillerdeki kelime anlamı belirginleştirme çalışmaları ile ilgili literatür çalışmalarına yer verilmektedir. Üçüncü bölümde, ilk olarak bu çalışmada kullanılan veya bu çalışmayla ilgili olan tanımlara yer verilmektedir. Devamında ise verilerin toplanmasına, analizine ve yorumlanmasına yer verilmektedir. Verilerin toplanması üzerine olan bölümde SemEval-2007 Türkçe çalışmasında kullanılan kelimelerin ve özelliklerin detaylarına yer verilmektedir. Verilerin çözümlenmesi ve yorumlanması kısmında ise ilk önce çalışmada kullanılan kelimeler ve özelliklerin nasıl bir yapıda kullanıldığı ve geçirildikleri ön işlem aşamaları anlatılmaktadır. Ardından bu verilerin girdi olarak verileceği yapay sinir ağı modelleri ve bu modeller ile yapılan eğitim aşamaları ve bu aşamaların sonuçların analizi üzerinde detaylı anlatım yapılmaktadır. Son olarak, bu çalışmada sonuçlarının analizinde kullanılacak metrikler ve detayları anlatılmıştır. Dördüncü bölümde ise derin öğrenme modelleri kullanılarak alınan sonuçların ağırlıklı ve makro ortalamaları ile SemEval-2007 Türkçe verileriyle önceki çalışmaların elde ettiği metrik değerlerine yer verilmiş olup ardından bu bulgular yorumlanmıştır. Beşinci bölümde ise yapılan bu çalışma genel hatlarıyla özetlenmiş ve ileride yapılabilecek çalışmalar için öneriler verilmiştir.

Early symbolic approaches to understanding natural languages attempted to capture the meaning of text using rules is written by humans. However, such rule-based systems have proved to be fragile and limited in the specific areas for which they were designed. In the last 20 years, a statistical approach to natural language processing has become widespread. This system can automatically learn rules from data using mathematical models. In this thesis, deep learning studies and algorithms that can be used in word sense disambiguation task are investigated and experiments are conducted on a labeled Turkish dataset. Data from the Turkish study in SemEval-2007 is used in order to make comparisons with several previous studies. This thesis consists of five chapters. In the first chapter, a summary of word sense disambiguation is given. Then, the problem to be solved within the scope of the thesis, the purpose of solving this problem, the assumptions made about the problem and the limitations are given. In the second chapter, literature studies on word sense disambiguation studies in Turkish and foreign languages are given. In the third section, firstly, the definitions used in this study or related to this study are given. Afterwards, data collection, analysis and interpretation are given. In the section on data collection, details of the words and features used in the SemEval-2007 Turkish study are given. In the data analysis and interpretation section, firstly, the structure of the words and features used in the study and the pre-processing stages they have undergone are explained. Then, the artificial neural network models to which these data will be given as input, the training stages with these models and the analysis of the results of these stages are explained in detail. Finally, the metrics to be used in the analysis of the results of this study and their details are explained. In the fourth section, the weighted and macro averages of the results obtained using deep learning models and the metric values obtained by previous studies with the SemEval-2007 Turkish data are given and then these findings are interpreted. In the fifth section, this study is summarized in general terms and suggestions for future studies are given.

Anahtar Kelimeler

Derin öğrenme, Doğal dil işleme, Kelime anlamı belirginleştirme, SemEval-2007, Deep learning, Natural language processing, Word sense disambiguation, BERT, SemEval-2007

Künye

Gümüşdağ, T. (2023). Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması / A word sense disambiguation application on Turkish language using deep learning. (Yayımlanmamış Yüksek Lisans Tezi). Maltepe Üniversitesi, Lisansüstü Eğitim Enstitüsü, İstanbul.

Bağlantı

https://hdl.handle.net/20.500.12415/12460

Koleksiyon

Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu

Detaylı Öğe Kaydı

Derin öğrenme kullanarak Türkçe için bir kelime anlamı belirginleştirme uygulaması

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Açıklama

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Bağlantı

Koleksiyon