Dile özgü öznitelikleri kullanan bir varlık ismi tanıma sistemi geliştirilmesi
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Ege Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Her bir doğal dil, pek çok farklı kurala ve bu kuralların bir araya gelmesi ile oluşan karakteristik yapılara sahiptir. Ancak son dönemlerde doğal dil işleme alanında büyük başarılar elde eden BERT gibi modeller, metin kodlama (tokenizasyon) işlemi dilden bağımsız olarak yapmaktadır. Dolayısıyla modelin başarılı olabilmesi için dilin karakteristik özelliklerine ait örüntülerin de modelin kendisi tarafından temsil edilmek üzere öğrenilmesi gerekmektedir. Dilin kendine özgü özniteliklerini dikkate alan bir modelle Türkçe için daha yüksek bir başarım elde edilebileceği varsayımından yola çıktığımız bu çalışmada BERT modelinde kullanılan WordPiece isimli tokenizer bileşeni yerine Türkçe'nin temel ses dönüşüm özelliklerini dikkate alan yeni bir tokenizer geliştirilmiş ve bu tokenizer kullanılarak tamamen sıfırdan yeni dil modelleri eğitilmiştir. Yeni modelin başırmı orjinal modelin başarımı ile karşılaştırıldığında varlık ismi tanıma problemi özelinde, uygulanan yeni modelin eğitim hızını önemli ölçüde iyileştirdiği ve başarımda da hissedilir derecede gelişme sağlandığı gözlemlenmiştir. Sonuç olarak, bu çalışmada Türkçe için özgün bir model geliştirilmiş ve üç alanda katkı sağlanmıştır: Türkçe'ye uygun bir tokenizasyon algoritması oluşturulmuş, bu algoritmayı kullanarak yeni bir dil modeli eğitilmiş ve elde edilen modeller Türkçe varlık ismi tanıma probleminde uygulanmıştır.
Each natural language has various rules and characteristic structures formed by the combination of these rules. However, recent models in natural language processing, such as BERT, perform text encoding (tokenization) independently of the language. Therefore, to achieve successful performance, the patterns of the language's characteristic features also need to be learned and represented by the model itself. Based on the assumption that a model considering the unique attributes of the language could achieve higher performance for Turkish, in this study, we developed a new tokenizer that takes into account the fundamental sound transformation features of Turkish, instead of the WordPiece tokenizer used in BERT models. Using this new tokenizer, we trained entirely new language models from scratch. Comparing the performance of the new model with the original model specifically in the named entity recognition task, we observed significant improvement in training speed and noticeable enhancement in performance. In conclusion, we developed an original model for Turkish in this study and made contributions in three areas: we created a tokenizer tailored for Turkish, trained new language models using this algorithm, and applied them to the named entity recognition problem in Turkish.
Each natural language has various rules and characteristic structures formed by the combination of these rules. However, recent models in natural language processing, such as BERT, perform text encoding (tokenization) independently of the language. Therefore, to achieve successful performance, the patterns of the language's characteristic features also need to be learned and represented by the model itself. Based on the assumption that a model considering the unique attributes of the language could achieve higher performance for Turkish, in this study, we developed a new tokenizer that takes into account the fundamental sound transformation features of Turkish, instead of the WordPiece tokenizer used in BERT models. Using this new tokenizer, we trained entirely new language models from scratch. Comparing the performance of the new model with the original model specifically in the named entity recognition task, we observed significant improvement in training speed and noticeable enhancement in performance. In conclusion, we developed an original model for Turkish in this study and made contributions in three areas: we created a tokenizer tailored for Turkish, trained new language models using this algorithm, and applied them to the named entity recognition problem in Turkish.
Açıklama
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control