声纹识别与声源定位(二)
一、引言
????????什么是聲源定位(Sound Source Localization,SSL)技術(shù)?聲源定位技術(shù)是指利用多個麥克風(fēng)在環(huán)境不同位置點對聲信號進(jìn)行測量,由于聲信號到達(dá)各麥克風(fēng)的時間有不同程度的延遲,利用算法對測量到的聲信號進(jìn)行處理,由此獲得聲源點相對于麥克風(fēng)的到達(dá)方向(包括方位角、俯仰角)和距離等。
當(dāng)談及到聲源定位,我們很容易聯(lián)想到人耳定位,人的單耳和雙耳都具有定位的能力。在單耳定位中,耳廓各部位會對入射聲波進(jìn)行反射,再進(jìn)入耳道。由于與直達(dá)聲波相位不同,兩者在耳道出發(fā)生干涉,產(chǎn)生了特殊聽覺效果,該效應(yīng)稱為耳廓效應(yīng),再配合人頭轉(zhuǎn)動因素,可以達(dá)到聲源定位的目的。在雙耳定位中,我們通過左耳和右耳接收到的信號會有時間差(Interaural Time Difference, ITD)和聲級差(Interaural Level Difference, ILD),根據(jù)ITD和ILD對特定的聲音進(jìn)行定位,水平方位角的確定在數(shù)學(xué)上可以表述為一個二維聲音方向估計問題,如下圖1所示。ITD信息在中低頻時的方位估計有更好的效果,而ILD信息在高頻的方位估計有更好的效果。再加上耳廓效應(yīng)、頭部轉(zhuǎn)動、優(yōu)先效應(yīng)等,我們會對角度、距離等信息有更進(jìn)一步、更準(zhǔn)確的認(rèn)知。
什么是陣列麥克風(fēng)?
????????麥克風(fēng)陣列是由一定數(shù)目的麥克風(fēng)組成,對聲場的空間特性進(jìn)行采樣并濾波的系統(tǒng)。目前常用的麥克風(fēng)陣列可以按布局形狀分為:線性陣列,平面陣列,以及立體陣列。其幾何構(gòu)型是按設(shè)計已知,所有麥克風(fēng)的頻率響應(yīng)一致,麥克風(fēng)的采樣時鐘也是同步的。
麥克風(fēng)陣列一般用于:聲源定位,包括角度和距離的測量,抑制背景噪聲、干擾、混響、回聲,信號提取,信號分離。其中聲源定位技術(shù)利用麥克風(fēng)陣列計算聲源距離陣列的角度和距離,實現(xiàn)對目標(biāo)聲源的跟蹤。
環(huán)形6麥陣列? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?USB 4麥克風(fēng)陣列
????????基于麥克風(fēng)陣列的語音分離就是利用麥克風(fēng)陣列或多個麥克風(fēng)來模擬人耳,通過語音分離算法將麥克風(fēng)采集到的相互干擾的混疊信號分離開來以獲得感興趣的信號。而基于麥克風(fēng)陣列的聲源定位也是首先利用麥克風(fēng)陣列采集語音信號,然后利用數(shù)字信號處理的相關(guān)技術(shù)對采集的信號做分析處理,最后確定并對聲源的空間位置(即聲源在平面或空間中的坐標(biāo))進(jìn)行跟蹤。
二、聲源定位技術(shù)
?聲源定位技術(shù)主要有以下兩部分組成:
- 到達(dá)方向 (Direction-of-arrival, DOA) 估計,其中包括方位角與俯仰角。
- 距離估計。
1. 端到端的模型
聲源定位端到端的模型對采集到的聲音信號進(jìn)行特征提取,然后使用聲音定位方法來獲得輸出,而該映射方法很大程度依賴于聲學(xué)傳播模型。
傳播模型(Propagation Model)。聲源定位的聲學(xué)傳播模型比較常見的是自由場模型和遠(yuǎn)場模型。在自由場中,聲音只通過一條直達(dá)的路徑到達(dá)麥克風(fēng),這也意味著聲源與麥克風(fēng)之間沒有阻擋物,沒有聲音的反射(沒有室內(nèi)的混響),例如空曠的室外或者消音環(huán)境室中。在遠(yuǎn)場中,麥克風(fēng)間的距離和聲源到麥克風(fēng)陣列的距離之間的關(guān)系,使得聲波可以被認(rèn)為是平面波。
特征(Feature)。在使用的聲學(xué)定位方法中,使用了以下聲學(xué)特征:到達(dá)時間差(Time difference of arrival, TDOA),麥克風(fēng)間的能量差(Inter-microphone intensity difference, IID),頻譜缺口(Spectral notches),MUSIC偽頻譜(Pseudo-spectrum),以及波束形成可控響應(yīng)(Beamforming steered-response)等。
映射方法(Mapping procedures)。聲源定位中的映射方法是指將陣列信號中的特征映射為其位置信息。
?2. 實現(xiàn)方法
(1)到達(dá)方向估計
基于相對時延估計的方法。由于陣列的幾何結(jié)構(gòu),各個陣列接收到的信號都有不同程度的延時,而基于相對時延估計的方法通過互相關(guān)、廣義互相關(guān)(Generalized Cross-Correlation, GCC)或相位差等來估計各個陣列信號之間的時延差,再結(jié)合陣列的幾何結(jié)構(gòu)來估算聲源的方位角信息。
基于波束形成的方法。該算法通常對陣列的各陣元使用所有角度補償相位,以實現(xiàn)對目標(biāo)區(qū)域的掃描,然后對各信號進(jìn)行加權(quán)求和,將波束輸出功率最大的方向作為目標(biāo)聲源的方向。常見的基于波束形成的聲源方位角估計算法有延遲相加(Delay and Sum, DS)算法,最小方差無失真響應(yīng)(Minimum Variance Distortionless Response, MVDR)算法,可控響應(yīng)功率相位變換法(Steered Response Power-Phase Transform, SRP-PHAT)等。
基于信號子空間的方法。這類算法一般可以分為相干子空間方法和非相干子空間方法,在非相干子空間算法中,最經(jīng)典的算法為多信號分類(Multiple Signal Classification, MUSIC)算法,其思想是將信號的協(xié)方差進(jìn)行特征提取,利用特征向量構(gòu)建信號子空間和噪聲子空間,再將噪聲子空間構(gòu)建高分辨率空間譜。由于聲源信號是寬帶信號,可以對聲源信號使用傅立葉變換分解成多個窄帶信號,再對每個窄帶利用MUSIC算法定位,將各窄帶估計得結(jié)果加權(quán)組合得寬帶方位估計。而相干子空間方法是將窄帶信號匯聚到某一參考頻率,從而采用窄帶子空間處理方法進(jìn)行方位估計。
基于模態(tài)域的方法。上述方法皆是陣元域的處理方法,而模態(tài)域的一大特性是其波束和導(dǎo)向矢量的頻率無關(guān),依據(jù)此可以設(shè)計出具有低頻指向型的波束形成器,也可以降低陣元域波束掃描的頻點數(shù)。模態(tài)域的處理方法與陣元域相比,其波束形成多出一步模態(tài)展開的操作,模態(tài)展開可通過傅立葉變換實現(xiàn),展開后的每階模態(tài)都有與之對應(yīng)的空間特征波束,對應(yīng)于特定的波束響應(yīng),可以看作是組合成期望波束響應(yīng)的一組基。理論上來講,只要模態(tài)展開的階數(shù)足夠高,理論是可以組合逼近成任意的波束。模態(tài)域的方法目前應(yīng)用在球型陣列和環(huán)型陣列上有比較好的結(jié)果。
基于機器學(xué)習(xí)(或深度學(xué)習(xí))的方法。與傳統(tǒng)基于模型的方法相比,基于機器學(xué)習(xí)的方法是數(shù)據(jù)驅(qū)動的,甚至無需定義傳播模型。基于機器學(xué)習(xí)的方法將聲源定位看作是一個多分類或者線性回歸問題,利用其非常強的非線形擬合能力,直接將多通道數(shù)據(jù)特征映射成定位結(jié)果。基于機器學(xué)習(xí)的方法主要也發(fā)展成了兩種方向,即基于網(wǎng)格的方法和無網(wǎng)格的方法,這兩種方法在定位精度和估計聲源個數(shù)上各有優(yōu)勢。
(2)距離估計
與DOA估計相比,聲源距離的估計研究起步較晚。在得到DOA估計結(jié)果后,聲源被定位在了由傳聲器和捕獲信號之間的雙曲線內(nèi),若采用多個傳聲器陣列對源信號進(jìn)行DOA估計,則可通過每個傳聲器陣列的雙曲線交點對聲源進(jìn)行定位。然而,該方法并不適用于遠(yuǎn)距離測距,許多研究也停留在室內(nèi)的短距離聲源測距上。
在室內(nèi)條件下,當(dāng)聲源距離發(fā)生變化時,來自反射聲的能量(如室內(nèi)混響漫射聲場)可以假定是保持不變,而來自直達(dá)聲的能量會發(fā)生變化。這兩種能量的比值被稱為直達(dá)混響比(Direct-to-Reverberant ratio, DRR),該比值與聲源距離的估計密切相關(guān)。理論上,信號的DRR可以通過聲源到達(dá)傳聲器的房間沖激響應(yīng)函數(shù)(Room Impulse Responses, RIRs)直接計算出。但聲源距離的估計受多方因素的影響(如RIRs未知,近場與遠(yuǎn)場模型不匹配,混響能量會因距離的改變而改變等),這些方法并不成熟,無法得到很好的應(yīng)用。
3. 評價指標(biāo)
針對DOA估計和距離估計的方法,需要依靠一些指標(biāo)來衡量聲源定位的性能,常見的評價指標(biāo)如下:
平均誤差(Average error)。它衡量的是估計的誤差,通常將估計值與真實值進(jìn)行比較,將這些值的平均差異表現(xiàn)出來。具體實現(xiàn)的方法包括絕對誤差、均方誤差、均方根誤差和最大誤差等。
準(zhǔn)確率(Accuracy)。這個指標(biāo)通常用于DOA估計,我們假定如果估計值在真實值一定的誤差范圍內(nèi),則認(rèn)定該估計是正確的,否之,認(rèn)定為錯誤。它衡量了多少比例的檢測是正確的。
查準(zhǔn)率(Precision)、查準(zhǔn)率(Recall)和F1分?jǐn)?shù)(F1-score)。這些指標(biāo)在機器學(xué)習(xí)分類任務(wù)中比較常見的。針對估計一個聲源的位置,如果估計正確,則稱為真正例(True positive);如果估計錯誤,則稱為假反例(False negative)。假設(shè)該位置沒有聲源,如果估計的結(jié)果也是沒有,則稱為真反例(True negative);如果估計的結(jié)果是有聲源,則稱為假正例(False positive)。查全率衡量所檢測正確的聲源位置個數(shù)占所有聲源的比例;查準(zhǔn)率衡量所估計到的聲源位置中,有多少位置估計是正確的比例。一般來說,查準(zhǔn)率和查全率呈負(fù)相關(guān)關(guān)系,而F1分?jǐn)?shù)為這兩個指標(biāo)的調(diào)和平均,提供它們之間的平衡。
聲源的數(shù)量(Number of sources)。該指標(biāo)衡量所能估計到聲源的數(shù)量,而不在乎聲源的具體位置。
還有一些其他的性能指標(biāo),如將某聲源定位方法用在語音識別、聲源分離、語音拾取任務(wù)的預(yù)處理,上述任務(wù)依賴于聲源定位的效果,通過這些任務(wù)的性能表現(xiàn)來間接評價聲源定位的性能。
三、語音分離與聲源定位算法Steered Response Power Phase Transform(SRP-PHAT)+Degenerate?Unmixing?Estimation?Technique(DUET)
相位變換加權(quán)的可控響應(yīng)功率算法Steered Response Power Phase Transform(SRP-PHAT)是定位聲源的一種重要的算法。對于多源擴(kuò)展,可以使用Degenerate?Unmixing?Estimation?Technique(DUET)來分離每個源,并將其傳遞給SRP-PHAT算法以實現(xiàn)多源跟蹤
3D Multiple Sound Sources Localization (SSL)
GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.Combine sound source separation with SRP-PHAT to achieve multi-source localization. - GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.https://github.com/BrownsugarZeer/Multi_SSL
1
2
3
總結(jié)
以上是生活随笔為你收集整理的声纹识别与声源定位(二)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cocos2d-x传智播客_Hansel
- 下一篇: 裸眼3D大屏首秀!变形金刚登陆成都太古里