Vekil sunucu verisi üzerinde veri madenciliği ile kullanıcı sorguları kümelemesi
Yükleniyor...
Tarih
2012
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Maltepe Üniversitesi, Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu tez çalışmasında Maltepe Üniversitesi vekil sunucusu üzerinden derlenen günlük dosyası önişlemeye tabi tutularak bölümleme tabanlı ve graf tabanlı kümeleme algoritmaları ile kümelenmiş ve sonuçlar CLUSION adlı yöntem ile görselleştirilmiştir. Kullanıcıların arama motorlarında yaptıkları sorgular, günlük dosyasından önişleme ile elde edilmiş ve kümeleme amacı ile kullanılmıştır. Toplam 5 bölümden oluşan tezin birinci bölümünde genel kavramlardan bahsedilmiştir. İkinci bölümde veri madenciliğinin genel tanımından, güncel sorunlarından, WWW ile olan ilişkisinden, üçüncü bölümde web madenciliği bileşenleri ve alt süreçlerinden, web madenciliğinde kullanılabilecek veri ve web madenciliğinin kullanım alanlarından bahsedilmiştir. Dördüncü bölümde benzerlik ölçümleri ile k-means ve graf tabanlı kümeleme algortimaları ele alınmıştır. Beşinci bölümde uygulamanın geliştirilme aşamaları, kullanılan araçlar ve geliştirme ortamı başlığı altında Zemberek doğal dil işleme kütüphanesi ve graf tabanlı kümeleme yöntemleri içeren Strehl küme analizi kütüphanesi anlatılmıştır. Bu bölümde ayrıca çalışmada kullanılan veri kümesi ve önişleme süreci açıklanmış, elde edilen sonuçlar irdelenmiştir. Bu tez 2012 yılında tamamlanmıştır ve 97 sayfadan oluşmaktadır.
In this master thesis, log files from web proxy server of Maltepe University have been preprocessed and clustered using partitioning and graph-based clustering algorithms. Results have been illustrated by using CLUSION algorithm. Queries performed by users on search engines have been compiled by processing proxy log files and are used for clustering. General concepts about data mining have been presented in first section of the thesis which actually has 5 sections. In second section general definition of Data Mining has been given with contemporary problems in the field. In this section also the points which WWW and Data Mining have in common are mentioned. In third section web mining components and sub processes, data that can be used in web mining and usage of web mining in industry have been discussed. In fourth section similarity measures, k-means and graph based clustering have been presented to be basis in the following section. In fifth section which is the last one, the phases of the application have been discussed while Zemberek NLP library and Strehl cluster analysis library have been presented under tools and environments heading. In this section also the data set which has been used in the study and preprocessing task has been discussed and the results are investigated. This thesis has been completed in 2012 and consists of 97 pages.
In this master thesis, log files from web proxy server of Maltepe University have been preprocessed and clustered using partitioning and graph-based clustering algorithms. Results have been illustrated by using CLUSION algorithm. Queries performed by users on search engines have been compiled by processing proxy log files and are used for clustering. General concepts about data mining have been presented in first section of the thesis which actually has 5 sections. In second section general definition of Data Mining has been given with contemporary problems in the field. In this section also the points which WWW and Data Mining have in common are mentioned. In third section web mining components and sub processes, data that can be used in web mining and usage of web mining in industry have been discussed. In fourth section similarity measures, k-means and graph based clustering have been presented to be basis in the following section. In fifth section which is the last one, the phases of the application have been discussed while Zemberek NLP library and Strehl cluster analysis library have been presented under tools and environments heading. In this section also the data set which has been used in the study and preprocessing task has been discussed and the results are investigated. This thesis has been completed in 2012 and consists of 97 pages.
Açıklama
Anahtar Kelimeler
Web kullanım madenciliği, Veri madenciliği, Kullanıcı kümeleme, Vekil sunucu günlükleri, Arama günlükleri sorgusu, Web usage mining, Data mining, User clustering, Proxy logs, Query search logs
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Aytekin, M. K. (2012). Vekil sunucu verisi üzerinde veri madenciliği ile kullanıcı sorguları kümelemesi / Mining proxy log data for clustering user queries (Yayımlanmamış Yüksek Lisans Tezi). Maltepe Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.