Bilgi erişim sistemlerinde istatistiksel bağımsızlık esasında indeks terim ağırlıklandırma

Yükleniyor...
Küçük Resim

Tarih

2011

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu tezde bilgi erişim (kıs. BE) sistemlerinde indeks terim ağırlıklandırma (kıs. ITA) işlemi için iki farklı yaklaşımda özgün modeller geliştirilmiştir. Bağımsızlıktan sapma (Ing. Divergence From Independence, kıs. DFI) ve Luhntabanlı modeller olarak adlandırılan bu iki yaklaşım, sırasıyla: ‘istatistiksel bağımsızlık fikri’ ve ‘Luhn’un kelime frekansı ile kelime önemi ilişkisi hakkındaki iddiasını’ temel almaktadır. Luhn’un iddiasının BE açısından geçerliliği detaylıca incelenmiş ve destekleyici bulgulara ulaşılmıştır. Luhn’un iddiasını nicel olarak gösteren ve ‘Terim Frekansı x Ters Belge Frekansı’ (Ing. Term Frequency x Inverse Document Frequency, kıs. TFxIDF) semasınını temel alan ITA formülleri: z puanları tabanlı ve medyan tabanlı olmak üzere iki farklı yöntemle oluşturulmuştur. Ortaya konulan modellere uygun ITA formüllerinin BE başarımları TREC (Ing. Text Retrieval Conference) 6, 7 ve 8 anlık sorgu izi veri kümelerinde test edilmiştir. Bu testlerde elde edilen BE başarımları ile sunulan istatistiksel yaklaşımların indeks terim ağırlıklandırma probleminin çözümü için kullanılabileceği sonucuna varılmıştır. Bu tez kapsamında geliştirilen DFI ile ağırlıklandırma kullanan BE sistemi ile aktif olarak TREC-2009 ve TREC-2010’a katılınmıştır. Türkiye’den ilk defa katılınan 2009 yılındaki TREC’te yalnızca ağırlıklandırma ile bile ortalama bir basarım elde edilmiştir. BE işlemindeki temel bazı yöntemlerin DFI üzerine eklenmesi ile gerçekleştirilen yürütümler ile TREC-2010 web izi anlık sorgu görevinde en iyi sistemler arasına girilmiştir.

Açıklama

Anahtar Kelimeler

İndeks terim ağırlıklandırma, bilgi erişim, Luhn’un iddiası, bağımsızlıktan sapma, TFxIDF., Index term weighting, information retrieval, Luhn’s claim, divergence from independence, TFxIDF, Uluslararası Bilgisayar A.B.D.

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye