Günümüz yazılı Türkçesinin istatistiksel özellikleri ve bir metin sıkıştırma uygulaması
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Bu tez çalışmasının amacı, İngilizce için elde edilmiş dil ile ilgili bazı istatistiki değerlerin Türkçe için de elde edilmesidir. Bu amaç kapsamında Shannon ve Cover tarafından geliştirilen entropi testleri deneklere uygulanarak Türkçe'nin entropi ve fazlalık değerleri hesaplanmıştır. Türkçe metinler üzerinde yapılan çalışmalarla, günümüz yazılı Türkçesinin monogram (1-gram), digram (2-gram), trigram (3-gram), tetragram (4-gram) ve pentagram (5-gram) harf sıklık değerleri elde edilmiştir. Bu değerlerden monogram ve pentagramlar bir sembol sıralama algoritması içinde kullanılarak Türkçe metinleri sıkıştırmak amacıyla kullanılabilecek bir metin sıkıştırma uygulaması geliştirilmiştir.Elde ettiğimiz sonuçlar Türkçe'nin entropi değerinin yaklaşık 1,47 bit/sembol ve fazlalık değerinin %70 olduğunu göstermektedir. Bu veriler Türkçe bir metnin geliştirilebilecek uygun bir sıkıştırma algoritması ile %70 oranında sıkıştırılabileceğini göstermektedir.