K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları

Küçük Resim Yok

Tarih

2018

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Mikrodizi teknolojisindeki son gelişmeler sayesinde genlerin farklı seviyelerini eş zamanlı olarak ifade etmek mümkün hale gelmiştir. Genler içindeki gizli bilgilerin temsil edilmesi, genlerin analizini kolaylaştırmakta; ancak gen sayısının fazla olması ve veri setlerindeki yüksek gürültü miktarı gen verilerinin anlaşılmasını zorlaştırmaktadır. Bunun için genlerin belirlenebilmesini kolaylaştırmak amacıyla kümeleme yöntemleri kullanılmaktadır. Mikrodizi verileri çok boyutlu verilere en iyi örneklerdendir. Çok boyutlu verileri kümelemek için çalışma kapsamında standart K-ortalamalar ve Parçacık Sürü Optimizasyonu (PSO) tabanlı kümeleme algoritmaları için başlangıç küme merkezlerinin seçimine yönelik yeni yöntemler önerilmiştir. Ayrıca öbek (coreset) yaklaşımı PSO algoritmasına uyarlanmıştır. Geliştirilen yöntemlerin doğruluğu; literatürde sıkça kullanılan veri setleri üzerinde test edilmiş ve bu yaklaşımlar Colon Cancer mikrodizi veri seti üzerinde çalıştırılmıştır. Baz alınan standart K-ortalamalar ve PSO tabanlı kümeleme yöntemleri ile geliştirilen yaklaşımlar karşılaştırılmış; performansları çözüme ulaşılan ortalama iterasyon sayısı, Rand ve Silhouette indeksleri kullanılarak değerlendirilmiştir. Deneysel çalışmalarda, geliştirilen yaklaşımların öznitelik seçimi yapılmış normalize veri setleri üzerinde başarılı sonuçlar verdiği gözlemlenmiştir.
Thanks to the recent advances in microarray technology, simultaneously expressing different levels of genes is possible. Although the representation of confidential information in genes simplifies to analyze them; both high number of genes and high amount of noise in the data sets make difficult to identify the gene data. In order to identify genes various clustering methods are generally used. Microarray data is one of the best examples of multidimensional data. In this study, in order to cluster multidimensional data, new methods for selecting initial cluster centers are proposed for the standard K-means and Particle Swarm Optimization (PSO)-based clustering algorithms. Also, coreset approach is adapted for PSO algorithm. The correctness of the developed methods is examined on datasets which are frequently used in the literature, and also these proposed approaches are run on Colon Cancer microarray data set. The performance of the proposed approaches is compared with the standard K-means and PSO-based clustering methods by means of average iteration number, Rand, and Silhouette index metrics. In experimental studies, we observe that proposed methods give superior results on the normalized datasets in which feature selection process is performed.

Açıklama

Anahtar Kelimeler

Mühendislik, Ortak Disiplinler

Kaynak

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi

WoS Q Değeri

Scopus Q Değeri

Cilt

33

Sayı

2

Künye