Dile özgü öznitelikleri kullanan bir varlık ismi tanıma sistemi geliştirilmesi

Küçük Resim Yok

Tarih

2023

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Her bir doğal dil, pek çok farklı kurala ve bu kuralların bir araya gelmesi ile oluşan karakteristik yapılara sahiptir. Ancak son dönemlerde doğal dil işleme alanında büyük başarılar elde eden BERT gibi modeller, metin kodlama (tokenizasyon) işlemi dilden bağımsız olarak yapmaktadır. Dolayısıyla modelin başarılı olabilmesi için dilin karakteristik özelliklerine ait örüntülerin de modelin kendisi tarafından temsil edilmek üzere öğrenilmesi gerekmektedir. Dilin kendine özgü özniteliklerini dikkate alan bir modelle Türkçe için daha yüksek bir başarım elde edilebileceği varsayımından yola çıktığımız bu çalışmada BERT modelinde kullanılan WordPiece isimli tokenizer bileşeni yerine Türkçe'nin temel ses dönüşüm özelliklerini dikkate alan yeni bir tokenizer geliştirilmiş ve bu tokenizer kullanılarak tamamen sıfırdan yeni dil modelleri eğitilmiştir. Yeni modelin başırmı orjinal modelin başarımı ile karşılaştırıldığında varlık ismi tanıma problemi özelinde, uygulanan yeni modelin eğitim hızını önemli ölçüde iyileştirdiği ve başarımda da hissedilir derecede gelişme sağlandığı gözlemlenmiştir. Sonuç olarak, bu çalışmada Türkçe için özgün bir model geliştirilmiş ve üç alanda katkı sağlanmıştır: Türkçe'ye uygun bir tokenizasyon algoritması oluşturulmuş, bu algoritmayı kullanarak yeni bir dil modeli eğitilmiş ve elde edilen modeller Türkçe varlık ismi tanıma probleminde uygulanmıştır.
Each natural language has various rules and characteristic structures formed by the combination of these rules. However, recent models in natural language processing, such as BERT, perform text encoding (tokenization) independently of the language. Therefore, to achieve successful performance, the patterns of the language's characteristic features also need to be learned and represented by the model itself. Based on the assumption that a model considering the unique attributes of the language could achieve higher performance for Turkish, in this study, we developed a new tokenizer that takes into account the fundamental sound transformation features of Turkish, instead of the WordPiece tokenizer used in BERT models. Using this new tokenizer, we trained entirely new language models from scratch. Comparing the performance of the new model with the original model specifically in the named entity recognition task, we observed significant improvement in training speed and noticeable enhancement in performance. In conclusion, we developed an original model for Turkish in this study and made contributions in three areas: we created a tokenizer tailored for Turkish, trained new language models using this algorithm, and applied them to the named entity recognition problem in Turkish.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye