Domain specific automatic question generation from text
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Questioning is one of the effective techniques for assessing the learning level of students in education. However, the process of preparing questions manually by teachers is time-consuming, laborious, and costly. Automatizing the question generation task from the declarative text alleviates this process. Recently, employing sequence-to-sequence neural models has advanced the performance of generating questions compared to traditional rule-based models. Most of the existing neural models have concentrated on sentence-level while generating highquality and realistic questions requires extracting temporal and causal dependencies between sentences from the whole paragraph. In this thesis, the paragraph-level neural question generation model based on attention and copy mechanisms is developed for educational purposes in a specific domain. The proposed model consists of two main components: classifier and generator. In the classifier component, an answer-aware BERT-based model predicts the interrogative phrase to let the generator component know how to ask a question. Attention and copy mechanisms help the generator to pay more attention to the informative part of the paragraph and to overcome the out-of-vocabulary problem, respectively. Moreover, Turkish case markers are incorporated into the model to boost performance. Though developing an effective model is crucial, there is a need for datasets to train the question generation model. In this thesis, Turkish Biology Question Answering Dataset v1.0 (TurBiQuAD) containing {paragraph, question, answer} triplets, are built to drive the model forward. Experiments are conducted on TurBiQuAD as well as SQuAD datasets. The results show that the proposed model is well within the state-of-the-art models in paragraph-level in both datasets.
Soru sorma, eğitimde öğrencilerin bilgi düzeyini ölçmek için kullanılan etkili tekniklerden biridir. Ancak, öğretmenler tarafından soruların manuel olarak hazırlama süreci zaman alıcı, zahmetli ve maliyetlidir. Bildirim metninden soru oluşturma görevinin otomatikleştirilmesi bu süreci kolaylaştırır. Son zamanlarda, diziden diziye nöral modellerin kullanılması, geleneksel kural tabanlı modellere kıyasla soru üretme görevinin performansını arttırmıştır. Birçok mevcut nöral modeller cümle düzeyinde yoğunlaşmaktadır, ancak yüksek kaliteli ve gerçekçi sorular üretmek için, bir paragrafın cümlelerinin arasındaki zamansal ve nedensel bağlamları çıkarmak gerekir. Bu tezde, alana özgü, eğitim amaçlı, dikkat ve kopya mekanizmalarına dayalı, paragraf düzeyinde sinirsel soru üretme modeli geliştirilmiştir. Önerilen model iki ana bileşenden oluşmaktadır: sınıflandırıcı ve üretici. Sınıflandırıcı bileşeninde, cevaba duyarlı BERT tabanlı bir model, üretici bileşenin nasıl soru sorulacağını bilmesini sağlamak için soru sözcüğünü tahmin eder. Dikkat ve kopyalama mekanizmaları, üreticinin sırasıyla paragrafın bilgilendirici kısmına daha fazla dikkat etmesine ve kelime dağarcığı sorununun üstesinden gelmesine yardımcı olur. Ayrıca, Türkçe durum ekleri modelin performansını artırmak için kullanılmıştır. Tez kapsamında ayrıca, veri güdümlü Türkçe nöral soru üretim modelini eğitmek ve test etmek için, Türkçe Biyoloji Soru Cevaplama Veriseti v1.0 (TurBiQuAD) bir yan ürün olarak geliştirilmiştir. Deneyler, TurBiQuAD ve SQuAD veri kümeleri üzerinde gerçekleştirilmiştir. Sonuçlar, önerilen modelin, her iki veri setinde de paragraf düzeyinde, literatürde yaygın referans alan çalışmalar ile karşılaştırıldığında mevcut başarımı yakaladığı görülmüştür.