Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi / Parallel data mining by using density based clustering methods

Sever, Süleyman Zafer

Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi / Parallel data mining by using density based clustering methods

dc.contributor.advisor	Bilgin, Turgay Tugan
dc.contributor.author	Sever, Süleyman Zafer
dc.date.accessioned	2024-07-12T22:18:28Z
dc.date.available	2024-07-12T22:18:28Z
dc.date.issued	2010	en_US
dc.date.submitted	2010	en_US
dc.department	Enstitüler, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı	en_US
dc.description.abstract	Bu tez çalışmasında DBSCAN ve OPTICS algoritmaları, yazarlarının makalelerinde ortaya koyduğu sözde kodlar temel alınarak kodlanmıştır. Tek bilgisayar üzerinde gerçekleştirilen çalışmalarda komşuluk sorgularının çok zaman aldığı görülmüş ve bu sürenin kısaltılması için R*-Tree veri yapısı kullanılmıştır. DBSCAN algoritmasının paralelleştirilmesi için LAM/MPI kütüphanesi kullanılmıştır. DBSCAN uygulamasının en çok zaman harcayan kısmı olan komşuluk sorguları, LAM/MPI yardımı ile tüm bilgisayarlara eşit şekilde paylaştırılarak yapılmıştır. 3 farklı veri seti ile gerçekleştirilen testlerde DBSCAN algoritmasının paralelleştirmeye elverişli olduğu ve paralel çalışan DBSCAN?in Amdahl Kanunu?na uygun olarak çalışma süresinin kısaldığı, bununla birlikte küme oluşturma performansının ve kalitesinin etkilenmediği görülmüştür. Toplam 6 bölümden oluşan tezin birinci bölümünde genel kavramlardan bahsedilmiştir. İkinci bölümde veri madenciliğinin genel tanımı, uygulama alanları, veri madenciliği süreci ve veri madenciliği tekniklerinden bahsedilmiştir. Üçüncü bölümde kümeleme analizinin türlerinden, yoğunluk tabanlı kümeleme yöntemleri ağırlıklı olmak üzere bahsedilmiştir. Dördüncü bölümde paralel hesaplamanın amacı, paralel bilgisayar bellek mimarileri, paralel programlama modelleri ve paralel program tasarımından bahsedilmiştir. Beşinci bölümde paralel DBSCAN uygulamasının geliştirilme amacı, geliştirme ortamı, kullanılan araçlar, kullanılan veri setleri ve uygulamanın geliştirme adımlarından bahsedilmiştir. Altıncı ve son bölümde deneysel sonuçlar tablolar ve grafiklerle verilmiş ve elde edilen sonuçlar irdelenmiştir. Ayrıca bu konuda çalışma yapacak araştırmacılar için öneriler sunulmuştur.	en_US
dc.description.abstract	In this master thesis, DBSCAN algorithm and OPTICS algorithm have been coded by taking the pseudo-codes; that the writers set forth in their articles, as the basis. It has been noticed that neighborhood queries take too long time on the works carried out on a single computer and R*-Tree data structure is used in order to shorten this period. LAM/MPI library has been used to parallelize DBSCAN algorithm. Neighborhood queries are the part that spends most of the runtime of the DBSCAN application, and this has been performed by equally distributing to all the computers by the help of LAM/MPI. It has been evaluated in the tests; which had been implemented by 3 different data sets, that DBSCAN algorithm is suitable for parallelization and the runtime period of DBSCAN that works parallelly is shortened in accordance with Amdahl Principle. The general concept has been mentioned in the first section of the thesis that consists of 6 chapters. In the second chapter, general definition of data mining, its application areas, data mining process and techniques of data mining have been explained. Third chapter mainly encloses density based clustering methods that is one of the types of clustering analysis. Fourth chapter includes the objective of parallel programming, parallel computer memory architecture, parallel programming models and parallel program design. Fifth chapter consist of the development objective of parallel DBSCAN application, development environment, the tools used, the data sets and the development steps of the application. In the sixth and the last chapter, experimental results have been given with tables and graphics and attained results have been examined. Besides, suggestions have been presented for those who want to make research on this subject.	en_US
dc.identifier.citation	Sever, S. Z. (2010). Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi / Parallel data mining by using density based clustering methods (Yayımlanmamış Yüksek Lisans Tezi). Maltepe Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.12415/10483
dc.institutionauthor	Sever, Süleyman Zafer	en_US
dc.language.iso	tr	en_US
dc.publisher	Maltepe Üniversitesi, Fen Bilimleri Enstitüsü	en_US
dc.relation.publicationcategory	Tez	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.snmz	KT0510	en_US
dc.subject	Veri madenciliği	en_US
dc.subject	Kümeleme	en_US
dc.subject	Paralelleştirme	en_US
dc.subject	DBSCAN	en_US
dc.subject	OPTICS	en_US
dc.subject	LAM/MPI	en_US
dc.subject	Data mining	en_US
dc.subject	Clustering	en_US
dc.subject	Parallelization	en_US
dc.title	Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi / Parallel data mining by using density based clustering methods	en_US
dc.title.alternative	Parallel data mining by using density based clustering methods	en_US
dc.type	Master Thesis	en_US
dspace.entity.type	Publication

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi / Parallel data mining by using density based clustering methods
Boyut:: 1.3 MB
Biçim:: Adobe Portable Document Format
Açıklama:: Tam Metin / Full Text

İndir

Koleksiyon

Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu