Chapter 7:Statistical-Model-Based Methods
作者:桂。
時間:2017-05-25 ?10:14:21
主要是《Speech enhancement: theory and practice》的讀書筆記,全部內(nèi)容可以點(diǎn)擊這里。
書中代碼:http://pan.baidu.com/s/1hsj4Wlu,提取密碼:9dmi
前言
最近學(xué)習(xí)有一點(diǎn)體會,每一個學(xué)科的理論模型都提供了解決問題的思路,一個沒有受過教育又迷信權(quán)威的頭腦,難以從抽象的角度去認(rèn)識、理解問題,自然科學(xué)傳遞了這樣一套思維。例如之前的譜減法,就是具體問題具體分析;維納濾波,表達(dá)了復(fù)盤、以及反饋總結(jié)的重要性;這一章的統(tǒng)計模型,表達(dá)了對于不善于長期記憶的人類,借助歷史信息可以獲得更多的益處。總結(jié)一下,這些模型都表明:認(rèn)識問題要經(jīng)過感性-理性-感性的往復(fù)過程,很難有一勞永逸的方法,這也提醒思考的時候要小心、并保持客觀(因?yàn)榭傆行聠栴}),避免陷入剛愎自用的誤區(qū),同時也不必灰心喪氣,從Ada-boost的角度來看,任何弱分類器都可以組合成強(qiáng)分類器,自己/他人的經(jīng)歷、經(jīng)驗(yàn)增加(無論真假,只要努力推理出真與假的傾向),一個基本事實(shí)是:合理利用這些信息,總會讓人更接近事實(shí)真相。具體來說,對于語音降噪,都有:意識到問題——拆解并解決問題 的步驟,這也說明了一個現(xiàn)象:學(xué)習(xí)、記憶、認(rèn)知,這些 靠眼耳鼻舌身意 直觀接受的過程,如果二次加工,那么效果將會進(jìn)一步提升。
這一章主要是利用統(tǒng)計模型,細(xì)節(jié)處打算跳過,主要是三種模型:最大似然估計ML、最小均方誤差估計MMSE、最大后驗(yàn)估計MAP。
一、最大似然估計:MAXIMUM-LIKELIHOOD ESTIMATORS
A-最大似然估計
加性噪聲模型
寫成幅頻形式
為了求解,給出兩點(diǎn)假設(shè):1)雖然未知,但是確定信號,而不是隨機(jī)信號;2)噪聲是復(fù)高斯分布,且實(shí)部、虛部的方差相同;
這個求解比較復(fù)雜,且仍然可以用帶噪聲的相位近似,這樣一來就是無關(guān)緊要的了,可以對上面的式子進(jìn)一步處理:
這里是未知的,這里強(qiáng)行用了另一個約束:在沒有先驗(yàn)的情況下,均勻分布信息量最大,也就是不確定性最大,這也符合沒有先驗(yàn)之一預(yù)期,從而
上式簡化為
這里積分部分滿足Bessel的定義
零階Bessel可近似:
?近似的結(jié)果
利用Bessel近似表達(dá)似然函數(shù)
導(dǎo)數(shù)為零求解出幅度譜估計
恢復(fù)降噪的信號
從這一結(jié)果也可以看出X = 1/2Y + 1/2HY,總是有部分保留,ML衰減是較小的,也正因?yàn)槿绱?#xff0c;ML估計器基本不單獨(dú)使用,需要配合其他模型使用:如利用語音不存在概率。
B-功率譜減
與ML估計器不同,這里不再假定是確定信號,而是隨機(jī)信號。?
既然是隨機(jī)信號,就有統(tǒng)計信息。因此給出假設(shè):噪聲、語音信號的DFT不相關(guān),且都服從零均值的高斯分布。從而得出Y概率密度
容易估計幅度譜
得到恢復(fù)的音頻
這就是功率譜減,即(γ為后驗(yàn)信噪比)
C-維納濾波
對于維納濾波器
變換一下形式
濾波器是功率譜減的級聯(lián),因此衰減最大。
總計一下:按衰減程度由大到小,關(guān)系依次是:維納濾波>功率譜減>最大似然估計
二、貝葉斯估計?BAYESIAN ESTIMATORS
? A-MMSE幅值估計器
基于短時頻譜幅值的方法有個專業(yè)術(shù)語:,最優(yōu)幅度譜估計:
根據(jù)聯(lián)合密度
得到最優(yōu)估計器
看著感覺跟Wiener濾波器一回事,其實(shí)是有區(qū)別的:1)Wiener中,X = HY,假設(shè)有線性關(guān)系,這里沒有線性這一約束,也就是說這里的估計器可以是非線性的; 2)維納的MMSE是復(fù)頻譜最優(yōu),而此處的MMSE是幅度譜最優(yōu)。
同樣是為了簡化,引入約束1:各個頻點(diǎn)的DFT系數(shù)相互獨(dú)立:
這樣一來求解問題簡化為:
由于復(fù)信號Y是關(guān)于Xk和theta的函數(shù),難以直接求取,只要利用聯(lián)合分布積分處理即可,也就是
?這樣一來求解紅框里的兩個方程就可以得出理論解。這里引入約束2:Y是兩個零均值的復(fù)高斯隨機(jī)變量之和。
?則
這里用到復(fù)高斯概率密度的性質(zhì):
如果:且則
?且兩高斯分布:其模值為瑞利分布,相位為均勻分布,且二者獨(dú)立,證明可以參考這里。從而
事實(shí)上,至此完成了問題的求解,得到Xk的估計。但牛人們非要給一個更簡潔的表達(dá)式,這里直接給出結(jié)果:?
具體參數(shù)的定義,直接引用原文:
理論模型搭建完成,甚至得出了更簡潔的形式,距離應(yīng)用只差一步——參數(shù)的近似估計。文中的基本方法有兩個:
1-Maximum-Likelihood Method
利用多幀信號:,求解似然方程
容易得出估計(因?yàn)槭欠橇?#xff0c;所以max(估值,0)修正一下)
從而有
2-Decision-Directed Approach
根據(jù)定義
進(jìn)一步寫成
一個常規(guī)的思路是分兩邊看,借助遞歸思想,因?yàn)?#xff1a;
得出遞歸的更新公式
至此,完成了MMSE從理論到應(yīng)用的整個過程。
B-MMSE復(fù)數(shù)估計器
上面是幅值估計,相位用的是帶噪信號的相位,可不可以直接對復(fù)信號利用MMSE進(jìn)行估計呢?
求解問題轉(zhuǎn)化為:分別利用MMSE求解幅值、相位的最優(yōu)解,幅值已解決,直接分析相位
可以得出,所以帶噪信號的相位是干凈信號相位在MMSE下的最優(yōu)解。
C-對數(shù)MMSE估計器
求解思路與幅值的MMSE完全相同,不同的是利用對數(shù)的差異性
首先帶來一個問題:為什么要用Log-MMSE?個人理解是logx - logy = logx/y,min|x/y|等價于min(x-y)2 s.t. y2 = c,c為常數(shù)。log相比于直接MMSE,保證干凈信號幅值不變(不失真)的前提下,誤差最小化,有點(diǎn)類似維納濾波與LCMV之間的關(guān)系。理論上直接求解估值
無法直接求解,利用矩量簡化求解
其中
跟MMSE求解一個思路,至此完成求解。但牛人們也希望簡化
從而實(shí)現(xiàn)簡化求解
vk, λk跟上面的定義一樣,進(jìn)一步簡化
參數(shù)估計與MMSE中的思路完全一致,至此完成了求解以及實(shí)際應(yīng)用的實(shí)現(xiàn),其中積分部分也可以利用級數(shù)展開來簡化
Log-MMSE比MMSE抑制性更好:
D-pTH-POWER SPECTRUM-P階求解
先說結(jié)論:p階是更廣義的形式,Linear MMSE是它的特例,Log-MMSE也可以用p階來實(shí)現(xiàn)逼近
下面理論分析一下,給出準(zhǔn)則函數(shù)
得出最優(yōu)估計
都是一樣的套路:不能直接求解,轉(zhuǎn)化問題
大牛們求解的結(jié)果
即
具體參數(shù)求解同MMSE中的方法。
E-非高斯分布MMSE估計器
上面的DFT系數(shù)分布,都假設(shè)為高斯分布,實(shí)際情況是分布可能更接近其他分布(按頻點(diǎn)統(tǒng)計):如拉普拉斯、伽馬分布等等,這就需要考慮其他概率模型
一個合理的約束:DFT系數(shù)實(shí)部、虛部統(tǒng)計獨(dú)立。這樣互不相干,可以分別得出MMSE估計器,再進(jìn)行拼接:
其他思路都是一樣的,就是最后解方程一般人解不動...說一下思路:
根據(jù)貝葉斯定理
同樣只要估計出P(Y|X)和P(Y)就完成求解
從而得出估計器,完成求解
大牛總是可以簡化問題的,雖然這次的簡化好像也不漂亮:
其中
以上是基于Gamma分布的推導(dǎo),這里只是提供了一個籠統(tǒng)的思維框架。放在具體問題,需要:統(tǒng)計實(shí)驗(yàn)數(shù)據(jù),并估計概率模型→基于合理的概率模型,得到用來增強(qiáng)的估計器。
?
三、最大后驗(yàn)估計 MAXIMUM a POStErIOrI (MAP) ESTIMATORS?
A-幅值、相位估計器
準(zhǔn)則函數(shù)
利用貝葉斯準(zhǔn)則
分母不影響參數(shù)的估計,忽略
約束來了:1)DFT系數(shù)實(shí)部、虛部都是高斯分布;2)二者統(tǒng)計獨(dú)立,從而有
這樣一來,求解就容易了
偏導(dǎo)為零,得出估計器
實(shí)際應(yīng)用中具體參數(shù)的估計,與上面的思路都是一致的。
B-幅值估計器
只估計幅值:
貝葉斯準(zhǔn)則
忽略分母
利用
并借助A中的兩個表達(dá)式,得出估計
其中
與ML準(zhǔn)則估計器中的思路一樣,對Bessel近似處理
得出
?
從而得出估計器
C-調(diào)參的建議
這一節(jié)是看到這里想到的,注意觀察A、B兩個估計器
自己突發(fā)奇想,估計最多就水個水論文用得上,放在這里-感興趣拿走。所以一個自然的思路是將他們推而廣之:
α是可以調(diào)節(jié)的參數(shù)。
ML、MMSE、MAP三種估計器:
1)其實(shí)ML可以理解成均勻分布的貝葉斯,這個時候的先驗(yàn)知識為零,通常貝葉斯假設(shè)高斯、拉普拉斯等分布(如幅值),這就引入了先驗(yàn)知識,如果這個先驗(yàn)知識有效,理論上效果應(yīng)該比ML更好;這就像回歸中的應(yīng)用:無約束=均勻分布→最小二乘,高斯分布→Ridge回歸,拉普拉斯分布→Lasso回歸。
2)MMSE是基于統(tǒng)計平均的貝葉斯估計,注意它與Wiener是有區(qū)別的,雖然都基于均方誤差最小準(zhǔn)則;
3)MMSE找的是的均值,即,而MAP準(zhǔn)則找的是的最大值。
?
四、利用不存在概率 ?INCORPORATING SPEECH ABSENCE PROBABILITY IN SPEECH ENHANCEMENT
其實(shí)就是信息融合,也就是Boosting的思想:兩個弱分類器,組合一個強(qiáng)分類器,兩個弱增強(qiáng)器,組合一個強(qiáng)增強(qiáng)器。不多說了,不過書中將這點(diǎn)應(yīng)用的還不夠深入。
組合
關(guān)于此部分的更多內(nèi)容參考這里。
總結(jié)
以上是生活随笔為你收集整理的Chapter 7:Statistical-Model-Based Methods的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Chapter 5:Spectral-S
- 下一篇: 单边谱 → 双边谱