Çokboyutlu veritabanlarında kümeleme yöntemleri.
Küçük Resim Yok
Tarih
2012
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Ege Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Veri madenciliği yöntemlerinden biri olan Kümeleme Analizi, verilerin özelliklerini gözönüne alarak, birbirleri ile benzer olan verileri alt kümelere ayırmayı sağlayan çok boyutlu veri analiz yöntemidir. Kümeleme analizinin bir diğer tanımı da şu şekilde verilebilir: Özellikler arası benzerlik ya da farklılıklara dayalı olarak hesaplanan bazı ölçülerden yararlanarak verileri homojen gruplara bölmek, belirli prototipler tanımlamaktır.Kümeleme yöntemleri hiyerarşik ve hiyerarşik olmayan yöntemler olarak iki sınıfa ayrılır. Hiyerarşik kümelemede veri noktaları belirli bölümleme düzeylerinde birleştirilir veya ayrıştırılır. Hiyerarşik olmayan kümeleme yaklaşımında ise, veri noktaları belirli bölümleme kriterlerine göre belirli sayıda kümelere ayrılır.Bu tezde, hiyerarşik olmayan kümeleme yaklaşımına dayanan, veri setindeki veri grupları arasında kesin ayrımın söz konusu olduğu, kesin kümeleme algoritmalarından olan artımlı algoritmalar incelenmiştir. Kesin kümeleme içerisinde yer alan artımlı algoritmalar, veri setindeki veri grupları arasında kesin ayrımın söz konusu olmadığı, bir verinin belirli bir üyelik derecesiyle birden fazla kümeye ait olabildiği bulanık kümeleme yöntemleri ile beraber ele alınıp, bulanık kümeleme problemleri için yeni bir algoritma önerilmiştir. Önerilen artımlı yöntem C# dilinde MS SQL Server Veri Tabanı Yönetim Sistemi imkanları kullanılarak programlanıp, 12 gerçek veri seti üzerinde hesaplama denemeleri yapılmıştır. Önerilen algoritma Bulanık c-Ortalamalar algoritması ile kıyaslandığında yöntemin yararlılığı açıkça görülmektedir.Anahtar kelimeler: Bulanık c-Ortalamalar, Global k-Ortalamalar, Bulanık Kümeleme, Pürüzlü Optimizasyon
The Clustering Analysis, is one of the main techniques of data mining and it is also the method of analysis of multidimensional databases which divides the data set into clusters based on the similarity of data points. Another definition of cluster analysis can be given as follows: Divide data into homogeneous groups by using calculated measures on the basis of similarities or differences among the properties, to identify the specific prototypes.Clustering methods are divided into two classes: Hierarchical and non-hierarchical methods. On Hierarchical clustering the data points are combined and separated with the specific levels of partitioning. On non-hierarchical approaching the data points are divided into given number of clusters, according to the given criteria.In this thesis, the exact (hard) incremental clustering algorithms were investigated. This algoritms are based on the approach of non-hierarchical clustering. The hard incremental clustering algorithms with fuzzy clustering algorithms where there is not absolute division between the groups, and each data data may belong to more than one cluster with the fuzzy membership degree, are examined and a new algorithm is proposed for fuzzy clustering problems. The proposed incremental method programmed in C # using MS SQL Server and calculation experiments have been made on 12 real data set. The proposed method compared with the Fuzzy c-Means algorithm and usefulness of method is clearly seen.Key words: Fuzzy c-Means, Global k-Means, Fuzzy Clustering, Nonsmooth Optimization.
The Clustering Analysis, is one of the main techniques of data mining and it is also the method of analysis of multidimensional databases which divides the data set into clusters based on the similarity of data points. Another definition of cluster analysis can be given as follows: Divide data into homogeneous groups by using calculated measures on the basis of similarities or differences among the properties, to identify the specific prototypes.Clustering methods are divided into two classes: Hierarchical and non-hierarchical methods. On Hierarchical clustering the data points are combined and separated with the specific levels of partitioning. On non-hierarchical approaching the data points are divided into given number of clusters, according to the given criteria.In this thesis, the exact (hard) incremental clustering algorithms were investigated. This algoritms are based on the approach of non-hierarchical clustering. The hard incremental clustering algorithms with fuzzy clustering algorithms where there is not absolute division between the groups, and each data data may belong to more than one cluster with the fuzzy membership degree, are examined and a new algorithm is proposed for fuzzy clustering problems. The proposed incremental method programmed in C # using MS SQL Server and calculation experiments have been made on 12 real data set. The proposed method compared with the Fuzzy c-Means algorithm and usefulness of method is clearly seen.Key words: Fuzzy c-Means, Global k-Means, Fuzzy Clustering, Nonsmooth Optimization.
Açıklama
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, Bilim ve Teknoloji, Science and Technology, Matematik, Mathematics, Kümeleme analizi, Cluster analysis, Kümeleme yöntemi, Cluster method