Implementing language models enriched with text analysis: MIMIC-CXR case study

Küçük Resim Yok

Tarih

2023

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Mevcut araştırma ortamı, insan bilgisine dayalı insan karar verme süreçlerini taklit etmede yapay zekanın önemini vurgulamaktadır. Bu, farklı disiplinlerde çok sayıda pratik uygulamanın tanımlanmasına yol açmıştır. Sağlık hizmetleri alanı, laboratuvar sonuçlarına, bulgulara, MR, tomografi veya radyoloji görüntülerine dayalı tanıyı kolaylaştırmak için makine öğrenimi ve görüntü işleme tekniklerini kullanan uygulamaların hızla çoğalmasına tanık olmaktadır. Bununla birlikte, uzman bilgisiyle hazırlanmış epikriz raporları gibi çok sayıda sağlık raporu, temel ve önemli bilgiler içerir. Doğal dil işleme, otomatik sağlık raporu üretimi de dahil olmak üzere çeşitli alanları kapsayan bir araştırma alanıdır. Bu, sağlık raporlarından bilgi çıkarmak için bilgi ve deneyimin kullanılmasını içerir. Sağlık çalışanlarının yükünü azaltmak, hata yapma olasılığını en aza indirmek ve zamandan tasarruf etmek öncelikli hedeflerden biridir. MIMIC-CXR veri seti, radyoloji uzmanları tarafından hazırlanan raporların eşlik ettiği hacimli bir göğüs grafisi görüntüleri koleksiyonudur. Bu tez çalışması, radyografi raporlarının metin tabanlı yapısal ve anlamsal analizlerini içermektedir. Doğal dil işlemeye dayalı bir model geliştirmeden önce, veri seti üzerinde ön işleme teknikleri uygulanmıştır. Tez kapsamında, raporların yapılandırılmamış veri kümeleri üzerinde gerçekleştirilen sözdizimsel ve anlamsal analizlerin sonuçları sunulmaktadır. Ayrıca, kümeleme ve sınıflandırma algoritmalarını değerlendirmek için çeşitli metodolojiler ve dil modelleri kullanılmaktadır. Aynı zamanda, çeşitli tekniklerin ve dil modellerinin MIMIC-CXR veri kümesi üzerindeki etkinliği değerlendirilmektedir. Kullanılan teknikler ve dil modellerinin yanı sıra veri setinin performansı değerlendirilmekte ve raporlanmaktadır. Sağlık hizmetlerinde sınıflandırma algoritmasından türetilen sınıflandırma modelinin etkinliğini değerlendirmek için web tabanlı bir uygulama geliştirilmiştir. Tez çalışmasının sonucunda, MIMIC-CXR veri kümesi için doğal dil işleme modeline özel olarak odaklanılarak, dil modellerinin geliştirilmesine ilişkin bilgiler sunulmaktadır.
The current research landscape highlights the significance of artificial intelligence in emulating human decision-making processes based on human knowledge. This has led to the identification of numerous practical applications across diverse disciplines. The healthcare domain is witnessing a rapid proliferation of applications that employ machine learning and image processing techniques to facilitate diagnosis based on laboratory results, findings, MR, tomography, or radiology images. Nonetheless, numerous health reports, such as expertly crafted epicrisis reports, comprise essential and significant information. Natural language processing is a field of research that encompasses various areas, including automatic health report generation. This involves utilizing knowledge and experience to extract information from health reports. One of the primary goals is to decrease the burden on healthcare professionals while minimizing the likelihood of mistakes and saving time. The MIMIC-CXR dataset is a voluminous collection of chest radiograph images accompanied by reports that prepared by experts. This study incorporates text-based structural and semantic analyses of radiology reports. Before developing a model based on natural language processing, preprocessing techniques were implemented on the dataset. This thesis presents the outcomes of syntactic and semantic analyses conducted on unstructured datasets of reports. Moreover, diverse methodologies and language models are employed to evaluate clustering and classification algorithms. This study evaluates the efficacy of various techniques and language models on the MIMIC-CXR dataset is also evaluated. The performance of the dataset, as well as the techniques and language models employed, are assessed, and reported. A web-based application was developed to evaluate the efficacy of the classification model derived from the classification algorithm in healthcare. The anticipated outcome of this thesis is to provide insights into the development of language models, with a particular focus on the natural language processing model for the MIMIC-CXR dataset.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye