Ampirik kip ayrıştırması yöntemi ile uyarlanır eşikleme tabanlı konuşma iyileştirme ve sesli etkinlik algılama

Yükleniyor...
Küçük Resim

Tarih

2018

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Ege Üniversitesi, Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu çalışmada, gürültülü konuşma sinyallerinin içkin kip fonksiyonu katsayılarına Teager enerji operatörünün uygulanması ile çıkartılan enerji dağılımının Gamma istatistiksel modeline dayanan yeni bir sesli/konuşma etkinlik algılama ve konuşma iyileştirme algoritması önerilmiştir. Gamma dağılım fonksiyonu, gürültülü konuşma ve kestirilen gürültünün Teager enerji uygulanmış içkin kip fonksiyonu katsayılarından uyarlanır eşik değerlerinin belirlenmesinde kullanılmıştır. Simetrik Kullback-Leibler uzaklığı ile konuşma ya da gürültü olma olasılığı üzerinden uyarlanır eşik değerleri belirlenmiş ve her kip için hesaplanmıştır. Gürültülü konuşma sinyallerinin içkin kip fonksiyonu katsayılarının bu uyarlanır eşik değerlerinden geçirilmesi ile konuşma ve konuşma olmayan bölgeler belirlenerek sesli etkinlik algılama gerçeklenmiştir. Konuşma iyileştirme algoritması için ise bu katsayıların uyarlanır eşik değerleri kullanılarak oluşturulan bir yarı-yumuşak eşikleme fonksiyonundan geçirilmesi ile iyileştirilmiş konuşmalar elde edilmiştir. Yöntemlerin test edilmesinde İngilizce için NOIZEUS ve Türkçe için ise ODTÜ veri tabanı kullanılmıştır. Yöntemler yedi farklı gürültü tipi ve beş farklı sinyal gürültü oranı seviyesi koşullarında değerlendirilmiştir. Önerilen sesli etkinlik algılama yöntemi; konuşma doğruluk oranı, konuşma dışı doğruluk oranı ve genel doğruluk oranı ölçütlerine göre literatürdeki yöntemlere üstünlük sağlamıştır. Benzer şekilde, önerilen konuşma iyileştirme yöntemi nesnel kalite ve anlaşılabilirlik ölçütleri ile değerlendirilmiş ve literatürde sıklıkla kullanılan diğer yöntemler ile karşılaştırılmıştır. Tüm sonuçlar göz önünde bulundurulduğunda önerilen yöntem hem gürültü azaltmada hem de anlaşılabilirliğin sağlanmasında diğer yöntemlere göre daha başarılı bulunmuştur.
In this study, a new voice/speech activity detection and speech enhancement algorithms based on Gamma statistical model of the energy distribution extractred by Teager energy operator applied to intrinsic mode functions coefficients of noisy speech signals are proposed. The Gamma distribution function is used to determine the adaptive threshold values from Teager energy operated intrinsic mode function coefficients of noisy speech and estimated noise signal. Adaptive threshold values are determined and calculated for each mode based on the probability of speech or noise with Symmetric Kullback-Leibler divergence. The speech and non-speech regions are obtained by applying adaptive thresholding in these coefficients of noisy speech. For speech enhancement algorithms, the enhanced speech signals are obtained by a semi-soft thresholding function which is utilized by thresholded intrinsic mode coefficients of noisy speech. The proposed methods are tested on NOIZEUS for English and on METU for Turkish speech database and evaluated for seven kinds of noises across five different SNR levels. The proposed voice activity detection method is superior to other literature methods in terms of speech hit rate (HR1), non-speech hit rate (HR0) and overall accuracy rate. Similarly, the proposed speech enhancement method is compared to other methods frequently used in the literature in terms of objective quality and intelligibility mesaures. Simulation results show that the proposed methods are effective and outperformed to provide in terms of noise reduction and intelligibility compared with other speech enhancement methods for different SNR levels.

Açıklama

Anahtar Kelimeler

Konuşma İyileştirme, Sesli Etkinlik Algılama, Ampirik Kip Ayrıştırması, Gamma Olasılık Dağılımı, Teager Enerji, Kullback-Leibler Uzaklığı, Speech Enhancement, Voice Activity Detection, Empirical Mode Decomposition, Gamma Distribution, Teager Energy, Kullback-Leibler Divregence

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye