Derin öğrenme algoritmalarının yeni nesil sekanslama deneylerinde uygulanması
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Mendel'in kalıtım kurallarını keşfetmesi ile başlayan çağ, İnsan Genom Projesi (İGP) ile farklı bir boyut kazanmıştır. Biyolojik veri işleme teknolojisinin yaygınlaşması ile istatistik, matematik, bilgisayar bilimleri de biyolojik verilerde birbirinin tamamlayıcısı olmuştur. Bu alandaki teknolojilerin fiyatlarındaki düşüş nedeniyle genetik ve tıp alanındaki çalışmaların yönü değişmiştir. Yeni nesil sekanslama (NGS) teknolojisi, pek çok alanda yürütülen biyolojik araştırmaların vazgeçilmez bir parçası haline gelmiştir. NGS teknolojileri kullanılarak tüm genom, transkriptom veya daha küçük hedef bölgelerdeki milyarlarca nükleotid (DNA'yı oluşturan yapı taşları) dizilenebilmektedir. Bu işlemlerden sonra karşımıza çok büyük boyutlu veri matrisleri çıkmaktadır. Büyük boyutlu veri matrislerinden anlamlı bilgilerin saptanması sürecinde bilgisayar teknolojilerine ve derin öğrenme temelli yaklaşımlara gereksinim artmıştır. Bu çalışmada iki durumlu (0/1; hasta-sağlıklı... gibi) sınıf için derin öğrenme algoritmalarının gerçek tüm insan genom ve simüle verilerde tahminleme gücü araştırılmıştır. Araştırmada derin öğrenme algoritmasının hiper parametrelerinin değişim etkisi gösterilmiştir. Epoch 500, 1000, 2000 ve LR 0, 01 ve 0, 001 alındığında DL modellerinin performansı raporlanmıştır. Gerçek ve simüle verideki en yüksek sınıflama tahminleri 2000 epoch ve 0, 001 LR değerlerinde elde edilmiştir. Ayrıca sınıf dengesizliğinin olduğu durumlarda da derin öğrenme algoritmalarının Recall ve Precision değerlerini birbirine çok yakın tahminleme başarısı, toplum tabanlı çalışmalarda da yöntemin sonuçlarına güvenilebilir olduğunu araştırmacılara göstermektedir. Elde edilen karşılaştırma sonuçları araştırmacılara, çalışmalarında zaman ve maliyet açısından fayda sağlayacaktır. Epoch, katman sayısı, iterasyon sayısı gibi parametrelerin değişiminin model performansına etkisini bilen araştırmacılar, bu çalışmanın çıktılarını kullanarak genetik verilerinin analiz sonuçlarını hızlı ve doğruluğu yüksek şekilde raporlayabileceklerdir.;Yeni Nesil Sekanslama, Derin Öğrenme, Makine Öğrenme, Varyant Çağırma Formatı, Bulut Hesaplama.;Next Generation Sequencing, Deep Learning, Machine Learning, Variant Calling Format, Cloud Computing.
Açıklama
Araştırma Projesi elektronik ortamda bulunmaktadır.