Sınıf Dengesizliği Varlığında Hastalık Tanısı içinKolektif Öğrenme Yöntemlerinin Karşılaştırılması:Diyabet Tanısı Örneği
Küçük Resim Yok
Tarih
2020
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Amaç: Günümüzde makine öğrenmesi yöntemleri hastalık tanısının konulmasında yaygın olarak kullanılmaktadır. Ancak sağlık verisinin büyük hacimli, çok boyutlu ve karmaşık olması nedeniyle dengesiz sınıf problemi ile karşılaşılması durumunda bu yöntemlerin doğrudan kullanımı performans düşüşüne neden olmaktadır. Bu çalışmada diyabet hastalarına ilişkin dengesiz yapıdaki bir veri seti kullanılarak çeşitli yeniden örnekleme yöntemleri dengesizlik probleminin giderilmesinde kullanılmış ve kolektif (ensemble) öğrenme algoritmalarına entegre edilerek diyabet tanısı üzerinden sınıflandırma performansları karşılaştırılmıştır. Gereç Yöntemler: Kullanılan veriler Haziran – Eylül 2013 tarihleri arasında, İzmir Bozkaya Eğitim ve Araştırma Hastanesi, Endokrinoloji ve Metabolizma Hastalıkları polikliniğine başvuran, 18 yaşından büyük 185 hastadan elde edilmiştir. Diyabet tanısının sınıflandırmasına yönelik sınıf dengesizliği problemini gidermek amacıyla alt örnekleme (under sampling), aşırı örnekleme (over sampling) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemleri kullanılmıştır. Sınıflandırma performansı üzerindeki etkiler, torbalama (bagging) ve arttırma (boosting) temelli kolektif öğrenme yöntemlerine entegre edilmesiyle karşılaştırılmıştır. Algoritmaların doğru sınıflandırma performanslarının karşılaştırılmasında doğruluk, Kappa istatistiği, duyarlılık ve seçicilik ölçütleri kullanılmıştır. Tüm istatistiksel analizler, açık kaynak kodlu bir yazılım olan R programlama dilinde yapılmıştır. Bulgular: Dengesiz veri setinde ham veri ile yapılan diyabet tanısı sınıflandırma başarısı oldukça düşüktür. Aşırı örnekleme yöntemi ile yapılan sınıflandırmaların, orijinal dengesiz veri seti, alt örnekleme ve sentetik azınlık aşırı örnekleme yöntemi ile yapılan sınıflandırmalardan çok daha başarılı tahmin gücüne sahip olduğu tespit edilmiştir. Sonuç: Sınıf dengesizliği varlığında veri setlerini yeniden örnekleme yöntemlerine tabi tutarak veriyi dengeledikten sonra sınıflandırma algoritmalarının kullanılması önerilmektedir.
Açıklama
Anahtar Kelimeler
Kaynak
Türkiye Klinikleri Biyoistatistik Dergisi
WoS Q Değeri
Scopus Q Değeri
Cilt
12
Sayı
1