Görüntü altyazılama probleminde farklı mimarilerin karşılaştırılması ve performanslarının değerlendirilmesi

Küçük Resim Yok

Tarih

2022

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Görüntü altyazılama, görüntü içeriklerinden otomatik olarak doğal dil açıklaması üretmeyi amaçlayan günümüz literatüründe oldukça ilgi görmeye başlamış araştırma problemlerinden biridir. Ancak hem doğal dil işleme hem de görüntü işleme alanlarının kesişiminde bulunduğu için oldukça zorlu bir problemdir. Çünkü burada nesnelerin tespiti tek başına yetmeyecek nesneler arasındaki ilişkinin de doğru şekilde tespit edilip bir cümlede açıklanması gerekecektir. Görüntü altyazılama alanındaki ilk çalışmalar geleneksel makine öğrenme yöntemleriyle çözülmekteydi. Ancak günümüzde, problemin çözümünde derin öğrenme yöntemlerinin kullanılmaya başlanmasıyla daha başarılı sonuçlar elde edilmiştir. Bu tez kapsamında encoder decoder yöntemi kullanılarak görüntülerden açıklama üreten bir derin öğrenme modeli geliştirilmiştir. Çalışmada encoder olarak AlexNet, VGG16, ResNet50, InceptionV3 ve InceptionResNetV2 olmak üzere beş farklı mimari kullanılmıştır. Decoder olarak ise RNN mimarisinin gelişmiş versiyonu olan LSTM mimarisi kullanılmıştır. Veri seti olarak Yahoo'nun Flickr sitesinden toplanarak oluşturulmuş Flickr8K veri seti kullanılmıştır. Son olarak her farklı mimari için Bleu1 2-3-4, METEOR, ROUGE_L, CIDER değerlendirme kriterleri hesaplanmıştır. Hesaplamalar sonucunda InceptionResNetV2 mimarisinin en başarılı sonuçları verdiği gözlemlenmiştir. En düşük performansa sahip mimari ise AlexNet mimarisi olarak bulunmuştur. Tez çalışması, merge mimarisinde farklı encoder modellerinin test edildiği ve sonuçlarının birden farklı değerlendirme kriterlerinde karşılaştırıldığı için önemlidir
Image Caption Generation is one of the research problems that has started to draw a lot of attention in today's literature, which aims to automatically generate natural language descriptions from image contents. However, it is a pretty challenging problem because it is at the intersection of natural language and image processing. Because the detection of objects alone will not be enough here, the relationship between the objects will have to be correctly determined and explained in a sentence. The first studies in Image Caption Generation were being solved with traditional machine learning methods. However, more successful results have been obtained using deep learning methods for solving the problem. Within the scope of this thesis, a deep learning model has been developed that generates captions from images using the encoder-decoder method. Five different architectures, AlexNet, VGG16, ResNet50, InceptionV3 and InceptionResNetV2, are used as encoders in the study. As a decoder, LSTM architecture, which is the advanced version of RNN architecture, is used. The Flickr8K dataset, which was collected from Yahoo's Flickr website, is used as the dataset. Finally, the evaluation criteria of Bleu 1-2-3-4, METEOR, ROUGE_L, and CIDER were calculated for each different architecture. As a result of the calculations, it has been observed that InceptionResNetV2 architecture gives the most successful results. And also it has been observed that the AlexNet architecture gives the lowest performance results. The thesis is important because different encoder models are tested in the merge architecture and their results are compared in more than one evaluation criteria.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye