Günümüz yazılı Türkçesinin istatistiksel özellikleri ve bir metin sıkıştırma uygulaması

Yükleniyor...
Küçük Resim

Tarih

2001

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu tez çalışmasının amacı, İngilizce için elde edilmiş dil ile ilgili bazı istatistiki değerlerin Türkçe için de elde edilmesidir. Bu amaç kapsamında Shannon ve Cover tarafından geliştirilen entropi testleri deneklere uygulanarak Türkçe'nin entropi ve fazlalık değerleri hesaplanmıştır. Türkçe metinler üzerinde yapılan çalışmalarla, günümüz yazılı Türkçesinin monogram (1-gram), digram (2-gram), trigram (3-gram), tetragram (4-gram) ve pentagram (5-gram) harf sıklık değerleri elde edilmiştir. Bu değerlerden monogram ve pentagramlar bir sembol sıralama algoritması içinde kullanılarak Türkçe metinleri sıkıştırmak amacıyla kullanılabilecek bir metin sıkıştırma uygulaması geliştirilmiştir.Elde ettiğimiz sonuçlar Türkçe'nin entropi değerinin yaklaşık 1,47 bit/sembol ve fazlalık değerinin %70 olduğunu göstermektedir. Bu veriler Türkçe bir metnin geliştirilebilecek uygun bir sıkıştırma algoritması ile %70 oranında sıkıştırılabileceğini göstermektedir.

Açıklama

Anahtar Kelimeler

Türkçe'nin entropisi, sembol sıralama algoritması, metin sıkıştırma metodu, Türkçe harf dağılımları., Entropy of Turkish, symbol ranking algorithm, text compression method, Turkish letter frequencies., Uluslararası Bilgisayar Anabilim Dalı

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye