Sınıf Dengesizliği Varlığında Hastalık Tanısı içinKolektif Öğrenme Yöntemlerinin Karşılaştırılması:Diyabet Tanısı Örneği

Küçük Resim Yok

Tarih

2020

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Amaç: Günümüzde makine öğrenmesi yöntemleri hastalık tanısının konulmasında yaygın olarak kullanılmaktadır. Ancak sağlık verisinin büyük hacimli, çok boyutlu ve karmaşık olması nedeniyle dengesiz sınıf problemi ile karşılaşılması durumunda bu yöntemlerin doğrudan kullanımı performans düşüşüne neden olmaktadır. Bu çalışmada diyabet hastalarına ilişkin dengesiz yapıdaki bir veri seti kullanılarak çeşitli yeniden örnekleme yöntemleri dengesizlik probleminin giderilmesinde kullanılmış ve kolektif (ensemble) öğrenme algoritmalarına entegre edilerek diyabet tanısı üzerinden sınıflandırma performansları karşılaştırılmıştır. Gereç Yöntemler: Kullanılan veriler Haziran – Eylül 2013 tarihleri arasında, İzmir Bozkaya Eğitim ve Araştırma Hastanesi, Endokrinoloji ve Metabolizma Hastalıkları polikliniğine başvuran, 18 yaşından büyük 185 hastadan elde edilmiştir. Diyabet tanısının sınıflandırmasına yönelik sınıf dengesizliği problemini gidermek amacıyla alt örnekleme (under sampling), aşırı örnekleme (over sampling) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemleri kullanılmıştır. Sınıflandırma performansı üzerindeki etkiler, torbalama (bagging) ve arttırma (boosting) temelli kolektif öğrenme yöntemlerine entegre edilmesiyle karşılaştırılmıştır. Algoritmaların doğru sınıflandırma performanslarının karşılaştırılmasında doğruluk, Kappa istatistiği, duyarlılık ve seçicilik ölçütleri kullanılmıştır. Tüm istatistiksel analizler, açık kaynak kodlu bir yazılım olan R programlama dilinde yapılmıştır. Bulgular: Dengesiz veri setinde ham veri ile yapılan diyabet tanısı sınıflandırma başarısı oldukça düşüktür. Aşırı örnekleme yöntemi ile yapılan sınıflandırmaların, orijinal dengesiz veri seti, alt örnekleme ve sentetik azınlık aşırı örnekleme yöntemi ile yapılan sınıflandırmalardan çok daha başarılı tahmin gücüne sahip olduğu tespit edilmiştir. Sonuç: Sınıf dengesizliği varlığında veri setlerini yeniden örnekleme yöntemlerine tabi tutarak veriyi dengeledikten sonra sınıflandırma algoritmalarının kullanılması önerilmektedir.

Açıklama

Anahtar Kelimeler

Kaynak

Türkiye Klinikleri Biyoistatistik Dergisi

WoS Q Değeri

Scopus Q Değeri

Cilt

12

Sayı

1

Künye