后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...
【12月公開課預告】,入群直接獲取報名地址
12月11日晚8點直播主題:人工智能消化道病理輔助診斷平臺——從方法到落地
12月12日晚8點直播:利用容器技術(shù)打造AI公司技術(shù)中臺
12月17日晚8點直播主題:可重構(gòu)計算:能效比、通用性,一個都不能少
作者 | Just
出品 | AI科技大本營(ID:rgznai100)
距離3米甚至5米處,用戶與智能音箱對話是一個典型的遠場語音識別應用場景。
在遠場環(huán)境下,目標聲源距離拾音器較遠致使目標信號衰減嚴重,加之環(huán)境嘈雜,干擾信號眾多,最終導致信噪比較低,語音識別性能較差。為了提升遠場語音識別準確率,一般會使用麥克風陣列作為拾音器。利用多通道語音信號處理技術(shù),增強目標信號,提升語音識別精度。
不過,傳統(tǒng)數(shù)字信號處理技術(shù)已經(jīng)無法滿足技術(shù)發(fā)展的需求,用深度學習技術(shù)來替代麥克陣列系統(tǒng)中的傳統(tǒng)數(shù)字信號處理已經(jīng)開始成為行業(yè)主流。但此前行業(yè)提出的解決方案需要和數(shù)字信號處理過程看齊的深度學習模型結(jié)構(gòu)設(shè)計,嚴重影響了深度學習技術(shù)在該方向上的發(fā)揮和延伸,限制了深度學習模型的模型結(jié)構(gòu)的演變,制約了技術(shù)的創(chuàng)新和發(fā)展。
在近日舉辦的百度大腦語音能力引擎論壇上,百度語音首席架構(gòu)師賈磊提出了的基于復數(shù)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術(shù),它拋棄了數(shù)字信號處理學科和語音識別學科的各種先驗假設(shè),模型結(jié)構(gòu)設(shè)計和數(shù)字信號處理學科完全脫鉤,發(fā)揮了CNN網(wǎng)絡的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢,同時充分發(fā)揮深度學習學科模型設(shè)計靈活自由的學科優(yōu)勢。
據(jù)介紹,相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法, 該方法的錯誤率降低超過30%,目前已經(jīng)被集成到百度最新發(fā)布的百度鴻鵠芯片中。
基于傳統(tǒng)數(shù)字信號處理的技術(shù)
目前,語音識別技術(shù)在高信噪比場景下表現(xiàn)良好,但在低信噪比場景下,往往表現(xiàn)不穩(wěn)定。
典型的語音識別場景如目標聲源、非目標聲源、拾音器和語音識別軟件系統(tǒng)。以家居場景下的智能音箱產(chǎn)品為例,目標聲源是朝音箱發(fā)出指令的用戶;非目標聲源是周圍的聲音干擾,例如家電噪聲;拾音器和語音識別軟件系統(tǒng)是智能音箱。在拾音器拾取到的信號中,來自目標聲源的信號被稱為目標信號,來自非目標聲源的信號被稱為干擾信號。目標信號強度與干擾信號強度的比值被稱為信噪比。
遠場語音識別是一個典型的低信噪比場景,絕大多數(shù)在售的智能音箱產(chǎn)品系統(tǒng)目前所采用的多通道語音識別系統(tǒng),都是由一個前端增強模塊和一個后端語音識別聲學建模模塊串聯(lián)而成的:
前端增強模塊通常包括到達方向估計(DOA)和波束生成(BF)。DOA技術(shù)主要用于估計目標聲源的方向,BF技術(shù)則利用目標聲源的方位信息,增強目標信號,抑制干擾信號。常用的DOA技術(shù)有基于到達時延的定向算法,基于空間譜估計的定向算法等。
常用的BF技術(shù)有最小方差無畸變響應波束成形(MVDR BF),線性約束最小方差波束成形(LCMV BF)和廣義旁瓣消除波束成形( GSC BF)等。這些BF技術(shù)本質(zhì)上都是提升波束方向內(nèi)的目標聲源方向信號的信噪比,并盡可能的抑制波束外的非目標方向信號。前端增強模塊處理后,將產(chǎn)生一路單麥克信號,輸入到下面的后端語音識別聲學建模模塊中。
后端語音識別聲學建模模塊,會對這一路增強后的語音信號進行深度學習建模。這個建模過程完全類似于手機上的近場語音識別的建模過程,只不過輸入建模過程的信號不是手機麥克風采集的一路近場信號,而是用基于麥克陣列數(shù)字信號處理技術(shù)增強后的一路增強信號。
近些年,前端語音增強技術(shù)也逐漸開始用深度學習來做到達方向估計(DOA)和波束生成(BF),不少論文中和產(chǎn)品中也都提到了用深度學習技術(shù)來替代麥克陣列系統(tǒng)中的傳統(tǒng)數(shù)字信號處理技術(shù),也獲得了一些提升。
但是上面這一類語音增強技術(shù)大都是采用基于MSE的優(yōu)化準則,從聽覺感知上使得波束內(nèi)語音更加清晰,波束外的背景噪音更小。但是聽覺感知和識別率并不完全一致。而且這種方法在噪音內(nèi)容也是語音內(nèi)容的時候,性能會急劇下降。另外,前端語音增強模塊的優(yōu)化過程獨立于后端識別模塊。該優(yōu)化目標與后端識別系統(tǒng)的最終目標不一致。目標的不統(tǒng)一很可能導致前端增強模塊的優(yōu)化結(jié)果在最終目標上并非最優(yōu)。
另外,由于真實產(chǎn)品場合,聲源環(huán)境復雜,因此大多數(shù)產(chǎn)品都是先由DOA確定出聲源方向后,再在該方向使用波束生成形成波束,對波束內(nèi)的信號的信噪比進行提升,同時抑制波束外的噪音的干擾。這樣的機制使得整個系統(tǒng)的工作效果都嚴重依賴于聲源定位的準確性。同時用戶第一次說喚醒詞或者是語音指令的時候,第一次的語音很難準確利用波束信息,影響了首次喚醒率和首句識別率。
2017年,谷歌團隊最早提出采用神經(jīng)網(wǎng)絡來解決前端語音增強和語音聲學建模的一體化建模問題,文章從信號處理的Filter-and-Sum 方法出發(fā),首先推導出時域上的模型結(jié)構(gòu),然后進一步推導出頻域上的模型結(jié)構(gòu)FCLP(Factored Complex Linear Projection),相比時域模型而言大幅降低了計算量。該結(jié)構(gòu)先后通過空間濾波和頻域濾波,從多通道語音中抽取出多個方向的特征,然后將特征送給后端識別模型,最終實現(xiàn)網(wǎng)絡的聯(lián)合優(yōu)化。
谷歌提出的FCLP結(jié)構(gòu)仍然是以信號處理方法為出發(fā)點,起源于delay and sum濾波器,用一個深度學習網(wǎng)絡去模擬和逼近信號波束,因此也會受限于信號處理方法的一些先驗假設(shè)。比如FCLP的最低層沒有挖掘頻帶之間的相關(guān)性信息,存在多路麥克信息使用不充分的問題,影響了深度學習建模過程的模型精度。
再比如,beam的方向(looking direction)數(shù)目被定義成10個以下,主要是對應于數(shù)字信號處理過程的波束空間劃分。這種一定要和數(shù)字信號處理過程看齊的深度學習模型結(jié)構(gòu)設(shè)計,嚴重影響了深度學習技術(shù)在該方向上的發(fā)揮和延伸,限制了深度學習模型的模型結(jié)構(gòu)的演變,制約了技術(shù)的創(chuàng)新和發(fā)展。最終谷歌學術(shù)報告,通過這種方法,相對于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,得到了16%的相對錯誤率降低。
基于復數(shù)CNN的語音增強和聲學建模一體化端到端建模技術(shù)
賈磊在現(xiàn)場披露了基于復數(shù)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術(shù)的更多細節(jié)。
具體而言,該模型底部以復數(shù)CNN為核心,利用復數(shù)CNN網(wǎng)絡挖掘生理信號本質(zhì)特征的特點,采用復數(shù)CNN, 復數(shù)全連接層以及CNN等多層網(wǎng)絡,直接對原始的多通道語音信號進行多尺度、多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。在保留原始特征相位信息的前提下,同時實現(xiàn)了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現(xiàn)了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網(wǎng)絡的優(yōu)化準則完全依賴于語音識別網(wǎng)絡的優(yōu)化準則來做,完全以識別率提升為目標來做模型參數(shù)調(diào)優(yōu)。
除了模型結(jié)構(gòu)外,該方法要想成功落地產(chǎn)品,還必須解決多路麥克的訓練數(shù)據(jù)的獲取和建模問題。要知道,目前商業(yè)語音識別系統(tǒng)的訓練數(shù)據(jù),主要依靠從數(shù)據(jù)公司買來的手機上錄制的近場語音數(shù)據(jù)集合。遠場多路麥克數(shù)據(jù)由于采集設(shè)備難于獲取和周圍噪音環(huán)境難于控制,而很少存在成規(guī)模的訓練集合。
百度則研發(fā)了一種利用近場數(shù)據(jù)來模擬生成遠場訓練數(shù)據(jù)的方法:模擬一路信號傳輸?shù)蕉嗦符溈孙L的信號傳輸過程,并施加混響噪音和環(huán)境加性噪音。利用該方法,他們做出數(shù)百萬遠場房間環(huán)境下的遠場多路麥可信號的模擬數(shù)據(jù),并且成功訓練出可以達到產(chǎn)品上線級別的一體化聲學模型。
論壇上,搭載了該項語音技術(shù)的三款基于鴻鵠語音芯片的硬件產(chǎn)品全新發(fā)布:芯片模組 DSP芯片+Flash、Android 開發(fā)板DSP芯片+ RK3399、RTOS開發(fā)板DSP芯片+ESP32。此外,賈磊還描述了基于鴻鵠語音芯片的端到端軟硬一體遠場語音交互方案以及全新發(fā)布的針對智能家居、智能車載、智能IoT設(shè)備的三大場景解決方案。
此外,今年年初百度提出截斷注意力模型SMLTA,使得句子的整句識別率、方言的識別以及中英文混合的識別率顯著提升,實現(xiàn)了語音識別領(lǐng)域注意力模型的大規(guī)模工業(yè)在線產(chǎn)品落地。
而在語音合成領(lǐng)域,百度首創(chuàng)Tacotron+wavRNN聯(lián)合訓練,大幅提升云端合成速度。百度地圖20句話即可錄制語音導航的技術(shù)基于百度獨創(chuàng)的風格遷移技術(shù)Meitron模型,特點主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個方面,從而大大降低語音合成的門檻。
基于深度學習和產(chǎn)業(yè)應用加速突破,百度的語音技術(shù)已落地到百度App,百度地圖、小度音箱,百度輸入法等產(chǎn)品。百度CTO王海峰也在會上宣布,百度大腦通過AI開放平臺已開放228項技術(shù)能力,接入開發(fā)者超過150萬,而語音技術(shù)日均調(diào)用量則超過100億次。
總結(jié)
以上是生活随笔為你收集整理的后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mqtt客户端_初次接触MQTT
- 下一篇: 学python什么视频教程_学习pyth