语音跟踪:信号分解、锁相、鸡尾酒会效应、基于PR的信号分离
??????? NLP中關于語音的部分,其中重要的一點是語音信號從背景噪音中分離。比如在一個辦公室場景中,有白天的底噪-類似于白噪音的噪音、空調的聲音、鍵盤的啪啪聲、左手邊45度7米元的地方同事討論的聲音、右手邊1.5米遠處同事討論的聲音、打印機的聲音。各種聲音混雜在一起,從自然人的角度來分別,很容易做到區分各種聲音。
??????? 以自然人的觀點來看,不自覺的感知中使用了空間傳播模型和聲音模式識別,具體的機理暫時沒能搞清楚。以一般人的能力看來,區分特定的人的聲音是簡單從容的,一般只要記得曾經聽過即可。且可以在嘈雜的環境中持續的聽清楚這個人的說話聲。
?????? 在嘈雜的環境中,人們非常善于把注意力集中在某個特定的人身上,在心理上"屏蔽"所有其他語音和聲音。這種能力被稱為雞尾酒會效應,它是我們人類與生俱來的本領。然而,盡管關于自動語音分離(將音頻信號分離為單獨的語音源)的研究已經非常深入,這個課題仍是計算機領域的一項重大挑戰。
??????? 從聲音到語義,以此經過音素分析、單詞識別、句子識別、語義理解過程。
鎖相環-信號跟蹤
????? 模式識別從另一個方面來源于自動化技術,主要研究控制系統的自動化仍為普遍的模式識別科學很多的啟示。
?? ?? 信號分離是一種模式識別方案,鎖相環是一個反饋控制系統,本應該不相交。不過語音信號分離可以看做一種語音信號的鎖定和跟蹤技術。 參考: 鎖相環的基本組成和工作原理 。
????? 鎖相環路是一種反饋控制電路,簡稱鎖相環(PLL)。鎖相環的特點是:利用外部輸入的參考信號控制環路內部振蕩信號的頻率和相位。
????? 因鎖相環可以實現輸出信號頻率對輸入信號頻率的自動跟蹤,所以鎖相環通常用于閉環跟蹤電路。鎖相環在工作的過程中,當輸出信號的頻率與輸入信號的頻率相等時,輸出電壓與輸入電壓保持固定的相位差值,即輸出電壓與輸入電壓的相位被鎖住,這就是鎖相環名稱的由來。
???? 鎖相環通常由鑒相器(PD)、環路濾波器(LF)和壓控振蕩器(VCO)三部分組成,鎖相環組成的原理框圖如圖8-4-1所示。
???? 鎖相環中的鑒相器又稱為相位比較器,它的作用是檢測輸入信號和輸出信號的相位差,并將檢測出的相位差信號轉換成uD(t)電壓信號輸出,該信號經低通濾波器濾波后形成壓控振蕩器的控制電壓uC(t),對振蕩器輸出信號的頻率實施控制。
?? 鎖相環的應用:應用集中在以下三個方面:第一 信號的調制和解調;第二 信號的調頻和解調;第三信號頻率合成電路。
信號分離基礎
??????? 信號分離的模式識別基礎認知為模式分解的方法,一般可以把信號分解為更小尺度的基信號,通過基信號的組合模式進行模式識別。通過識別不同的模式來進行信號分離。
?????? 參考:信號分離研究內容基礎1、;信號分離研究內容基礎、2;講解的通俗易懂。
到目前為止,我們將現有的信號分析方法分為6大類方法:
1、最大后驗概率的方法MAP(Maximal aposterior probability)
2、基于稀疏性的表示方法 Sparsity based method:based onsparse representation(根源于小波的表示)
3、基于新的范數(度量)的方法,Norm based method:based on newnorm
4、經驗的方法,Empirical method:EMD etc(告訴你怎么算,但是不知道怎么辦)
5、變分框架分解方法,VMD
6、基于一些數學工具,Other method:basis,frame,ICA(小波基,框架,ICA)
(6)現有數學手段
基于數學工具的方法是大家用的最多,但是常常忘記的方法,如降維方法中的PCA,SVD方法,盲分離方法ICA,FastICA方法等等。幾乎所有的降維算法都能用于信號分離,如流行學習的算法。同時包括一些框架的算法,這些方法就是傳統數學理論的運用,這里就不多講了。
最后總結下現有信號處理方法的現狀和進展,以下個人觀點,請辯證的閱讀,如有錯誤,作者本人不承擔任何責任。
- 時域分析--所有基于統計的方法。
- 頻域--傅里葉變換(平穩信號處理方法)。
- 時頻分析方法--窗口傅里葉變換STFT、時頻分布方法(Winger-Ville、Cohen分布等等),小波方法WT,雙樹復數小波DTCWT,多小波Multi-WT,脊波變換等等(傳統非平穩信號分析)
- EMD方法,LMD,LCD,ITD等方法,這些都是基于EMD方法本身,屬于自適應非平穩信號處理方法。理論基礎薄弱。
- 字典方法,SWT,EWT,這些方法都是基于字典或是小波框架的方法,但是具有自適應分析能力,也屬于自適應非平穩信號處理方法。
- 稀疏時頻分析的方法,這類方法是基于字典的優化方法,也是稀疏表達大類的方法,屬于自適應非平穩分析方法。
- VMD方法,不講了,講過了。。。
- 還有很多。。。讀者自行查閱相關文檔
基于深度學習的語音分離
?????? 對于采樣頻率一般固定的聲音采樣,固定模式的聲音因此是變長的,RNN的循環結構可以用于處理變長模型,基于保留殘差改進為LSTM模型。
? ? ? 參考:搜狗研究員講解基于深度學習的語音分離技術 。文章很長,慢慢地看。
???? 技術詞匯:頻譜映射 方法
???? 根據干擾的不同,語音分離任務可以分為三類:
當干擾為噪聲信號時,可以稱為 “語音增強”(Speech Enhancement)
當干擾為其他說話人時,可以稱為 “多說話人分離”(Speaker Separation)
當干擾為目標說話人自己聲音的反射波時,可以稱為 “解混響”(De-reverberation)
??? ?? 由于麥克風采集到的聲音中可能包括噪聲、其他人說話的聲音、混響等干擾,不做語音分離、直接進行識別的話,會影響到識別的準確率。因此在語音識別的前端加上語音分離技術,把目標說話人的聲音和其它干擾分開就可以提高語音識別系統的魯棒性,這從而也成為現代語音識別系統中不可或缺的一環。
????? 基于深度學習的語音分離,主要是用基于深度學習的方法,從訓練數據中學習語音、說話人和噪音的特征,從而實現語音分離的目標。
????? 練目標包括兩類,一類是基于 Mask 的方法,另一類是基于頻譜映射的方法。
..............
?????? 如果使用頻譜映射,分離問題就成為了一個回歸問題。
?????
????? 頻譜映射可以使用幅度譜、功率譜、梅爾譜以及 Gammatone 功率譜。Gammatone 是模擬人耳耳蝸濾波后的特征。為了壓縮參數的動態范圍以及考慮人耳的聽覺效應,通常還會加上對數操作,比如對數功率譜。
????? 基于頻譜映射的方法,是讓模型通過有監督學習,自己學習有干擾的頻譜到無干擾的頻譜(干凈語音)之間的映射關系;模型可以是 DNN、CNN、LSTM 甚至 GAN。
.......................
???? 最后,文仕學給大家留了兩個思考題,歡迎大家在評論區給出自己的見解。
第一個問題是語音分離任務中,是按傳統思路先變換到頻域,然后在頻域上進行處理,還是直接在時域上處理比較好?后者的好處是端到端訓練,不用考慮頻域方法做傅立葉反變換時相位的問題。
第二個問題是對于語音增強任務,應該使用真實噪聲加噪還是使用人工仿真生成的噪聲進行降噪?
語音分離-噪聲中分離
????? 參考一個中文簡介:語音分離-從噪聲中分離,沒有仔細看。
單聲道語音分離,一般用到兩種技術:語音增強,和計算聽覺場景分析。
語音增強通過分析語音和噪聲的一般統計量,從帶噪語音中估計噪聲,進而從帶噪語音中減去噪聲估計,得到目標語音。其中最簡單的也是使用最廣泛的技術是譜減,它估計噪聲的功率譜,從帶噪語音中減去噪聲得到目標語音。
????? 計算聽覺場景分析模擬了人類聽覺系統的場景分析過程,它將聽覺場景分析分成分段(segmentation)和組織(grouping)兩個步驟,首先利用時間連續性及諧波特性等信息,將語音信號分解成獨立的來自于單個聲源的片段,再根據語音基音(pitch)以及語音開始(onset)和結束位置(offset)等線索,將語音片段組織連接起來。這些連接起來的語音就是分離得到的目標語音。
GitHub上的開源代碼:????
???? GitHub項目:自然語言處理領域的相關干貨整理
使用其他感知進行輔助
1.MIT提出像素級聲源定位系統PixelPlayer:無監督地分離視頻中的目標聲源:
論文鏈接:https://arxiv.org/pdf/1804.03160.pdf
項目地址:http://sound-of-pixels.csail.mit.edu/
2. GoogleAI技術:google 指哪兒看哪兒,多重信號分離
?? 論文地址:https://arxiv.org/pdf/1804.03619.pdf
總結
以上是生活随笔為你收集整理的语音跟踪:信号分解、锁相、鸡尾酒会效应、基于PR的信号分离的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 剑与远征如何遣散英雄
- 下一篇: 拼多多商家手机版app