Mikrodizi gen ifade veritabanlarında içerik-tabanlı arama
Yükleniyor...
Tarih
2016
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Ege Üniversitesi, Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Gen ifade veritabanlarının çok hızlı büyümesi anahtar veya metadata (üstveri) kullanan yapılandırılmamış veritabanı sorgulama işlemlerine alternatif olarak içerik tabanlı arama ihtiyacını getirmiştir. İçerik-tabanlı arama, benzer gen ifade desenine sahip bütün deneylerin, veritabanlarında bulunan biyolojik metinsel açıklamalarına bakılmaksızın getirilmesidir. Bu tez çalışmasında, içerik-tabanlı arama için gen ifade veritabanlarının özel bir alt kümesi olan zaman serisi deneyleri üzerinde odaklanılmış ve zaman serisi deneyleri sorgulanmıştır. Zaman serisi deneyinin tamamı sorgu deney olarak alınarak, ifade profillerine kümeleme algoritmaları ile boyut indirgeme yapılmış ve halka açık veritabanından oluşturulan test veri kümesinde içerik tabanlı arama uygulaması yapılmıştır. En uygun kümeleme algoritmasının bulunması için FunFem, Mclust ve Kmeans kümeleme algoritmaları denenmiş ve farklı ifade olmuş gen tabanlı yöntem ile karşılaştırılmaları yapılmıştır. Herhangi iki deneyin benzerliğinin bulunmasında deneylerde bir kümeye atanan ortak gen sayısı ile hastalık ilişkileri açıklamasına (annotation) göre deneylerin benzerliği hesaplanmıştır. Sonuçlar kümeleme kullanan yöntemin, geleneksel farklı ifade olmuş gen tabanlı yöntemden daha iyi geri getirim yaptığını göstermiştir.
The rapid growth of gene expression databases has created a need for content-based searches as an alternative to unstructured database queries using keyword- or metadata-based searches. Content-based searching is the ability to retrieve all experiments with similar gene expression patterns in a database regardless of the biological annotations provided for these experiments. While this concept is still in its infancy in a general context, in this thesis we focus on applying it to a specific subset of gene expression datasets, by only querying experiments involving time-series expression profiles. To this end, we propose a novel experiment fingerprinting scheme obtained by clustering expression profiles, for content-based searching of time-series microarray experiments. To determine the retrieval ability of the proposed scheme, we performed a simulated information retrieval task on a large set of microarray experiments gathered from a public repository. The relevance between any two experiments was then defined using their commonalities based on annotated disease associations. The results showed that relevant experiments can be more successfully retrieved using this new method compared with traditional differential expression-based methods.
The rapid growth of gene expression databases has created a need for content-based searches as an alternative to unstructured database queries using keyword- or metadata-based searches. Content-based searching is the ability to retrieve all experiments with similar gene expression patterns in a database regardless of the biological annotations provided for these experiments. While this concept is still in its infancy in a general context, in this thesis we focus on applying it to a specific subset of gene expression datasets, by only querying experiments involving time-series expression profiles. To this end, we propose a novel experiment fingerprinting scheme obtained by clustering expression profiles, for content-based searching of time-series microarray experiments. To determine the retrieval ability of the proposed scheme, we performed a simulated information retrieval task on a large set of microarray experiments gathered from a public repository. The relevance between any two experiments was then defined using their commonalities based on annotated disease associations. The results showed that relevant experiments can be more successfully retrieved using this new method compared with traditional differential expression-based methods.
Açıklama
Anahtar Kelimeler
Gen İfade Veritabanı, Zaman Serisi Verisi, Zaman Serisi Profili İçerik-Tabanlı Arama, Bilgi Geri Getirimi, Model-Tabanlı Kümeleme, Gene Expression Database, Time-Course Data, Time-Series Profile, Content-Based Search, Information Retrieval, Model-Based Clustering