K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları
Küçük Resim Yok
Tarih
2018
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Mikrodizi teknolojisindeki son gelişmeler sayesinde genlerin farklı seviyelerini eş zamanlı olarak ifade etmek mümkün hale gelmiştir. Genler içindeki gizli bilgilerin temsil edilmesi, genlerin analizini kolaylaştırmakta; ancak gen sayısının fazla olması ve veri setlerindeki yüksek gürültü miktarı gen verilerinin anlaşılmasını zorlaştırmaktadır. Bunun için genlerin belirlenebilmesini kolaylaştırmak amacıyla kümeleme yöntemleri kullanılmaktadır. Mikrodizi verileri çok boyutlu verilere en iyi örneklerdendir. Çok boyutlu verileri kümelemek için çalışma kapsamında standart K-ortalamalar ve Parçacık Sürü Optimizasyonu (PSO) tabanlı kümeleme algoritmaları için başlangıç küme merkezlerinin seçimine yönelik yeni yöntemler önerilmiştir. Ayrıca öbek (coreset) yaklaşımı PSO algoritmasına uyarlanmıştır. Geliştirilen yöntemlerin doğruluğu; literatürde sıkça kullanılan veri setleri üzerinde test edilmiş ve bu yaklaşımlar Colon Cancer mikrodizi veri seti üzerinde çalıştırılmıştır. Baz alınan standart K-ortalamalar ve PSO tabanlı kümeleme yöntemleri ile geliştirilen yaklaşımlar karşılaştırılmış; performansları çözüme ulaşılan ortalama iterasyon sayısı, Rand ve Silhouette indeksleri kullanılarak değerlendirilmiştir. Deneysel çalışmalarda, geliştirilen yaklaşımların öznitelik seçimi yapılmış normalize veri setleri üzerinde başarılı sonuçlar verdiği gözlemlenmiştir.
Thanks to the recent advances in microarray technology, simultaneously expressing different levels of genes is possible. Although the representation of confidential information in genes simplifies to analyze them; both high number of genes and high amount of noise in the data sets make difficult to identify the gene data. In order to identify genes various clustering methods are generally used. Microarray data is one of the best examples of multidimensional data. In this study, in order to cluster multidimensional data, new methods for selecting initial cluster centers are proposed for the standard K-means and Particle Swarm Optimization (PSO)-based clustering algorithms. Also, coreset approach is adapted for PSO algorithm. The correctness of the developed methods is examined on datasets which are frequently used in the literature, and also these proposed approaches are run on Colon Cancer microarray data set. The performance of the proposed approaches is compared with the standard K-means and PSO-based clustering methods by means of average iteration number, Rand, and Silhouette index metrics. In experimental studies, we observe that proposed methods give superior results on the normalized datasets in which feature selection process is performed.
Thanks to the recent advances in microarray technology, simultaneously expressing different levels of genes is possible. Although the representation of confidential information in genes simplifies to analyze them; both high number of genes and high amount of noise in the data sets make difficult to identify the gene data. In order to identify genes various clustering methods are generally used. Microarray data is one of the best examples of multidimensional data. In this study, in order to cluster multidimensional data, new methods for selecting initial cluster centers are proposed for the standard K-means and Particle Swarm Optimization (PSO)-based clustering algorithms. Also, coreset approach is adapted for PSO algorithm. The correctness of the developed methods is examined on datasets which are frequently used in the literature, and also these proposed approaches are run on Colon Cancer microarray data set. The performance of the proposed approaches is compared with the standard K-means and PSO-based clustering methods by means of average iteration number, Rand, and Silhouette index metrics. In experimental studies, we observe that proposed methods give superior results on the normalized datasets in which feature selection process is performed.
Açıklama
Anahtar Kelimeler
Mühendislik, Ortak Disiplinler
Kaynak
Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
WoS Q Değeri
Scopus Q Değeri
Cilt
33
Sayı
2