常用有话帧检测技术(VAD)
作者:桂。
時(shí)間:2017-05-31 ?17:43:22
鏈接:http://www.cnblogs.com/xingshansi/p/6925355.html?
前言
總結(jié)一下基本的有話幀檢測(cè)(Voice activity detection, VAD)技術(shù),基于神經(jīng)網(wǎng)絡(luò)的待后面梳理完神經(jīng)網(wǎng)絡(luò)的理論后再作整理。
一、雙門限
這是一種Boosting的思路,即:兩個(gè)弱分類器可以組合更強(qiáng)的分類器,依次類推,三、四門限其實(shí)都可。每一種門限對(duì)應(yīng)一種判決準(zhǔn)則。
基本的雙門限:短時(shí)能量+短時(shí)過(guò)零率,其原理是元音能量較大,用短時(shí)平均能量檢測(cè),輔音頻率較高,用短時(shí)平均過(guò)零率檢測(cè)。
考慮到噪聲的影響,通常作平滑處理。如:中值濾波,medfilt.
二、相關(guān)
該算法通過(guò)計(jì)算信號(hào)的相關(guān)系數(shù),主要利用信號(hào)、噪聲相關(guān)系數(shù)的差異性。依次擴(kuò)展的方法包括:1)最大端點(diǎn)檢測(cè);2)利用相關(guān)函數(shù)的歸一化R,主/副峰比值;3)音頻的相關(guān)函數(shù)具有一定的周期性,可以轉(zhuǎn)換成余弦求解→自相關(guān)函數(shù)余弦角值的端點(diǎn)檢測(cè)。
三、方差
語(yǔ)音與噪聲在頻譜域中差異大,有話幀:隨頻帶變化較大,噪聲變化較小,此類方法推廣的應(yīng)用:1)均勻子帶劃分;2)Bark子帶劃分;3)小波包Bark子帶。
四、譜熵
熵是衡量不確定性的量度,噪聲在頻譜分布較均勻,熵較大;語(yǔ)音分布不均勻,熵較小,歸一化的能量得到概率密度,依此計(jì)算出熵,利用該原理可以實(shí)現(xiàn)VAD檢測(cè)。
五、能零比和能熵比
能零比:短時(shí)能量與短時(shí)過(guò)零率的比值;
能熵比:短時(shí)能量與譜熵的比值。
六、其他方法
EMD的端點(diǎn)檢測(cè),本質(zhì)是降噪+VAD檢測(cè),丟棄EMD分解的高頻分量,對(duì)剩余的IMF分量進(jìn)行VAD檢測(cè)。
小波變換與基于EMD的方法大同小異。
總結(jié)
以上是生活随笔為你收集整理的常用有话帧检测技术(VAD)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 马斯克自曝注射mRNA加强针后产生严重副
- 下一篇: 哪些职业申请贷款比较难?