Yoğunluk tabanlı veri kümeleme algoritmaları üzerine

Yükleniyor...
Küçük Resim

Tarih

2018

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi, Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Teknolojinin hızla gelişimi, elde edilen ve saklanan verilerin sayısının büyük boyutlara ulaşmasına neden olmuştur. Veri boyutlarındaki hızlı artış, saklanan verilerin anlamsızlaşmasına sebep olmuş ve anlamlı bilgiye ulaşmayı zorlaştırmıştır. Bu problemi çözmek amacıyla veri madenciliği ortaya çıkmıştır. Veri madenciliğinin en sık kullanılan yöntemlerinden birisi kümeleme analizidir. Kümeleme analizi, önbilgi olmaksızın, veri seti içerisindeki doğal yapıların ortaya çıkarıldığı gibi veri seti içerisindeki ilişkilerin keşfedilebildiği bir süreçtir. Kümeleme analizinde en sık karşılaşılan problem, farklı şekillerdeki küme yapılarının keşfedilebilirliğidir. Gerçek dünya veri setleri, birçok farklı şekil ve yapıda kümeler içerebilmektedir. İyi bir kümeleme algoritmasından, farklı şekil ve yapıdaki kümeleri keşfedebilmesi beklenir. Bu problemi çözmek amacıyla, yoğunluk tabanlı kümeleme algoritmaları geliştirilmiştir. Bu tez çalışmasında, kümeleme analizi, kümeleme yöntemleri ve yoğunluğa dayalı kümeleme yaklaşımı detaylıca incelenmiştir. Yoğunluk tabanlı kümeleme problemi için yeni bir algoritma önerilmiş ve bu algoritmanın iki farklı versiyonu tanıtılmıştır. Tanıtılan algoritmalar, C# programlama dili kullanılarak hazırlanan bir program içerisinde çalıştırılmış; elde edilen sonuçlar, bu program üzerinde görselleştirilmiştir. Hazırlanan program aracılığı ile yapılan hesaplama denemeleri, dokuz adet gerçek veri seti üzerinde gerçekleştirilmiştir. Elde edilen sonuçlara göre, tanıtılan algoritmaların, farklı şekillere sahip sık ve iyi ayrılmış yapıdaki kümeleri başarı ile elde edebildiği gözlemlenmiştir.
The rapid development of technology has led to a large number of obtained and stored data. The rapid increase in data sizes caused the stored data to become meaningless and makes it difficult to reach meaningful information. In order to solve this problem, data mining has emerged. One of the most frequently used methods of data mining is the clustering analysis. Clustering analysis is a process in which, without prior knowledge, natural structures in the data set are discovered and relationships in the data set can be discovered. The most common problem in clustering analysis is the discoverability of arbitrary shaped clusters. Real world datasets can contain clusters in many different shapes and structures. A good clustering algorithm is expected to be able to discover clusters with arbitrary shape and structures. In order to solve this problem, density-based clustering algorithms have been developed. In this thesis study, clustering analysis, clustering methods and clustering approach based on density have been examined in detail. A new algorithm is proposed for the density-based clustering problem and two different versions of this algorithm are introduced. The introduced algorithms were run in a program prepared using the C # software language; the results obtained are visualized on this program. Calculation experiments performed through the prepared program were performed on nine actual data sets. According to the obtained results, it has been observed that the introduced algorithms can successfully obtain clusters in compact and well separated structures with arbitrary shapes.

Açıklama

Anahtar Kelimeler

Veri Madenciliği, Kümeleme Analizi, Yoğunluğa Dayalı Kümeleme, C# Programlama Dili, Hesaplama Denemeleri, Data Mining, Clustering Analysis, Density-Based Clustering, C# Programming Language, Experimental Results

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye