Türkçe makine okuduğunu anlama için soru-cevap veriseti oluşturma

Yükleniyor...
Küçük Resim

Tarih

2020

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Son yıllarda dil modelleme alanındaki gelişmeler birçok doğal dil işleme problemlerin sonucunu iyileştirmektedir. Bu problemlerden birisi olan "makineler tarafından bir metnin okunup anlaşılması" (İng: Machine Reading Comprehension (MRC)) problemi son birkaç yılda önemli ilerleme kaydetmiştir. MRC probleminin çözümü için büyük verisetlerinin geliştirilmesine ihtiyaç vardır. Verisetlerinin İngilizcede yaygın olması nedeniyle çalışmaların çoğu İngilizce üzerinedir; Türkçe için yeterince çalışılmamıştır. Bu eksikliğ gidermek için, bu projede Türkçe Biyoloji soru cevap veriseti (TurBiQuAD) geliştirilmiştir. Toplamda 13153 örnekten oluşan veriseti hazırlanmasında, lise biyoloji ders kitaplarından ve biyoloji alanında Vikipedi makalelerinden yararlanılmıştır. Veriseti alan-bağımlı olduğundan daha kaliteli ve gerçekçi soru-cevap çiftlerinin hazırlanabilmesi için orta öğretim biyoloji öğretmenlerinden yararlanılmıştır. Veriseti dört farklı açıdan analiz edilmiştir: istatistiksel analiz, soru türlerinin analizi, cevap türlerinin analizi ve zorluk seviyesi analizleri. Analizlere göre, en çok bulunan soru türü "ne" ve "hangi" soru türlerine aittir. "neden/niye" ve "nasıl" soru türleri veristenin %18'ini oluşturmaktadır. "kim", "nerede", ve "ne zaman" soru türleri, biyoloji metinlerinin özellikleri nedeniyle, sadece %6'sı kadardır. Bilgimiz dahilinde TurBiQuAD, Türkçede ilk kısa-cevaplı, orta ölçekli, alan-bağımlı MRC verisetidir.;Otomatik Soru üretme, Makine Okuduğunu anlama, veriseti, Sinirsel Dil Modelleri.;Question Generation, Machine Reading Comprehension, dataset, Neural Language Models.

Açıklama

Uluslararası Bilgisayar Enstitüsü Araştırma Projesi
Araştırma Projesi elektronik ortamda bulunmaktadır.

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye