Türkçe makine okuduğunu anlama için soru-cevap veriseti oluşturma
Yükleniyor...
Dosyalar
Tarih
2020
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Ege Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Son yıllarda dil modelleme alanındaki gelişmeler birçok doğal dil işleme problemlerin sonucunu iyileştirmektedir. Bu problemlerden birisi olan "makineler tarafından bir metnin okunup anlaşılması" (İng: Machine Reading Comprehension (MRC)) problemi son birkaç yılda önemli ilerleme kaydetmiştir. MRC probleminin çözümü için büyük verisetlerinin geliştirilmesine ihtiyaç vardır. Verisetlerinin İngilizcede yaygın olması nedeniyle çalışmaların çoğu İngilizce üzerinedir; Türkçe için yeterince çalışılmamıştır. Bu eksikliğ gidermek için, bu projede Türkçe Biyoloji soru cevap veriseti (TurBiQuAD) geliştirilmiştir. Toplamda 13153 örnekten oluşan veriseti hazırlanmasında, lise biyoloji ders kitaplarından ve biyoloji alanında Vikipedi makalelerinden yararlanılmıştır. Veriseti alan-bağımlı olduğundan daha kaliteli ve gerçekçi soru-cevap çiftlerinin hazırlanabilmesi için orta öğretim biyoloji öğretmenlerinden yararlanılmıştır. Veriseti dört farklı açıdan analiz edilmiştir: istatistiksel analiz, soru türlerinin analizi, cevap türlerinin analizi ve zorluk seviyesi analizleri. Analizlere göre, en çok bulunan soru türü "ne" ve "hangi" soru türlerine aittir. "neden/niye" ve "nasıl" soru türleri veristenin %18'ini oluşturmaktadır. "kim", "nerede", ve "ne zaman" soru türleri, biyoloji metinlerinin özellikleri nedeniyle, sadece %6'sı kadardır. Bilgimiz dahilinde TurBiQuAD, Türkçede ilk kısa-cevaplı, orta ölçekli, alan-bağımlı MRC verisetidir.;Otomatik Soru üretme, Makine Okuduğunu anlama, veriseti, Sinirsel Dil Modelleri.;Question Generation, Machine Reading Comprehension, dataset, Neural Language Models.
Açıklama
Uluslararası Bilgisayar Enstitüsü Araştırma Projesi
Araştırma Projesi elektronik ortamda bulunmaktadır.
Araştırma Projesi elektronik ortamda bulunmaktadır.