當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Audio音频兴趣拓展】麦克风阵列_声音定位

發(fā)布時(shí)間：2023/12/15 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了【Audio音频兴趣拓展】麦克风阵列_声音定位小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一般來說，基于麥克風(fēng)陣列的聲源定位算法劃分為三類：一是基于波束形成的方法；二是基于高分辨率譜估計(jì)的方法；三是基于聲達(dá)時(shí)延差（TDOA）的方法。

波束形成（Beamforming）

基于最大輸出功率的可控波束形成技術(shù) Beamforming，它的基本思想就是將各陣元采集來的信號進(jìn)行加權(quán)求和形成波束，通過搜索聲源的可能位置來引導(dǎo)該波束，修改權(quán)值使得傳聲器陣列的輸出信號功率最大。這種方法既能在時(shí)域中使用，也能在頻域中使用。它在時(shí)域中的時(shí)間平移等價(jià)于在頻域中的相位延遲。在頻域處理中，首先使用一個(gè)包含自譜和互譜的矩陣，我們稱之為互譜矩陣(Cross-Spectral Matrix，CSM)。在每個(gè)感興趣頻率之處，陣列信號的處理給出了在每個(gè)給定的空間掃描網(wǎng)格點(diǎn)上或每個(gè)信號到達(dá)方向(Direction ofArrival，DOA)的能量水平。因此，陣列表示了一種與聲源分布相關(guān)聯(lián)的響應(yīng)求和后的數(shù)量。這種方法適用于大型麥克風(fēng)陣列，對測試環(huán)境適應(yīng)性強(qiáng)。

Beamforming 的基本工作原理圖：

上圖說明：使用波束形成算法，先決條件是遠(yuǎn)場聲源（近場聲源用 TDOA），這樣可以假設(shè)入射聲波都是平行的；平行的聲場，如果入射角度與麥克風(fēng)平面垂直，則能同時(shí)到達(dá)各個(gè)麥克風(fēng)，如果不垂直，則出現(xiàn)圖 1 的現(xiàn)象，聲場到達(dá)每個(gè)麥克風(fēng)都會(huì)有延時(shí)，這個(gè)延時(shí)大小是由入射角度而定。

從該圖中可看出：不同的入射角度，疊加出來的最終波形強(qiáng)度是不一樣的。如θ=-45 度，幾乎沒有信號，θ=0 度，微微有點(diǎn)信號，θ=45 度，信號達(dá)到最強(qiáng)。這說明把原來沒有極性的單支麥克風(fēng)組裝成一個(gè)陣列后，整個(gè)陣列是有極性的，可以引出下一個(gè)極性圖。

上圖說明：每個(gè)麥克風(fēng)陣列都是一個(gè)方向陣，這個(gè)方向陣的指向性可通過時(shí)域算法Delay&Sum 簡單實(shí)現(xiàn)，控制不同的 Delay，實(shí)現(xiàn)不同方向的指向。這個(gè)方向陣指向可控相當(dāng)于給了一個(gè)空間濾波器，可以先把定位區(qū)域進(jìn)行網(wǎng)格劃分，再通過每個(gè)網(wǎng)格點(diǎn)的 Delay 時(shí)間對各個(gè)麥進(jìn)行時(shí)域 Delay，并最終把它 Sum 起來，就可以算出每個(gè)網(wǎng)格的聲壓，最終得到每個(gè)網(wǎng)格的相對聲壓，就可以出噪聲源定位的全息彩圖了。

基于高分辨率譜估計(jì)

基于高分辨率譜估計(jì)的方法包括了自回歸 AR 模型、最小方差譜估計(jì)（MV）和特征值分解方法（如 Music 算法）等，所有這些方法都通過獲取了傳聲器陣列的信號來計(jì)算空間譜的相關(guān)矩陣。在理論上可以對聲源的方向進(jìn)行有效估計(jì)，實(shí)際中若要獲得較理想的精度，就要付出很大的計(jì)算量代價(jià)，而且需要較多的假設(shè)條件，當(dāng)陣列較大時(shí)這種譜估計(jì)方法的運(yùn)算量很大，對環(huán)境噪聲敏感，還很容易導(dǎo)致定位不準(zhǔn)確，因而在現(xiàn)代的大型聲源定位系統(tǒng)中很少采用。

聲達(dá)時(shí)間差(TDOA)

聲達(dá)時(shí)間差(TDOA)的定位技術(shù)，這類聲源定位方法一般分為二個(gè)步驟進(jìn)行，先進(jìn)行聲達(dá)時(shí)間差估計(jì)，并從中獲取傳聲器陣列中陣元間的聲延遲(TDOA)；再利用獲取的聲達(dá)時(shí)間差，結(jié)合已知的傳聲器陣列的空間位置進(jìn)一步定出聲源的位置。

下圖解釋了 TDOA 的基本工作原理。

紅點(diǎn)是噪聲源，黑點(diǎn)是麥克風(fēng)，噪聲源到兩個(gè)麥（如麥 1，麥 3）的時(shí)延是一個(gè)常數(shù)，通過這個(gè)常數(shù)，我們可以畫出綠色的雙曲線，噪聲源到麥 3，麥 2 的時(shí)延是另一個(gè)常數(shù)，同樣地，我們可以畫出黑色曲線，兩條曲線相交，就是噪聲源的位置。

這種方法的計(jì)算量一般比前二種要小，更利于實(shí)時(shí)處理，但定位精度和抗干擾能力較弱，適合于近場，單一音源，而且不是重復(fù)性的信號，如語音信號，微軟 XBOX360 的 kinect 的麥陣（4 個(gè)間距不等的一維陣）就是典型的 TDOA 算法應(yīng)用。

總結(jié)

以上是生活随笔為你收集整理的【Audio音频兴趣拓展】麦克风阵列_声音定位的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。