多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿
在剛剛結(jié)束的 I/O 大會(huì)的主題演講中,Google CEO Sundar 提出了機(jī)器學(xué)習(xí)在無(wú)障礙(Accessibility)方面的用例:有聽(tīng)覺(jué)障礙的人在觀看視頻時(shí)往往需要配合字幕來(lái)完成輔助理解,但是如果你遇到了多個(gè)人同時(shí)在說(shuō)話,自動(dòng)生成的字幕反倒會(huì)擾亂聽(tīng)障人士的思維,使得他們更不知其所云。
有了我們稱之為?Looking to Listen?的機(jī)器學(xué)習(xí)技術(shù)之后,我們通過(guò)對(duì)視頻信號(hào)的處理和分析,將正在說(shuō)話的人進(jìn)行語(yǔ)音分離,借此提高音頻的質(zhì)量和準(zhǔn)確度。
我們將這篇今年 4 月份發(fā)布在 Google Research 博客上的分享于此,借以機(jī)會(huì)讓大家可以有更多針對(duì)這方面技術(shù)的了解。小編也為大家錄制了帶有 YouTube 自動(dòng)生成字幕的處理后的視頻,便于大家理解。
博客發(fā)布人:Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang
在嘈雜的環(huán)境中,人們非常善于把注意力集中在某個(gè)特定的人身上,在心理上"屏蔽"所有其他語(yǔ)音和聲音。這種能力被稱為雞尾酒會(huì)效應(yīng),它是我們?nèi)祟?strong style="max-width:100%;">與生俱來(lái)的本領(lǐng)。然而,盡管關(guān)于自動(dòng)語(yǔ)音分離(將音頻信號(hào)分離為單獨(dú)的語(yǔ)音源)的研究已經(jīng)非常深入,這個(gè)課題仍是計(jì)算機(jī)領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。
在"Looking to Listen at the Cocktail Party"論文中,我們提出了一種深度學(xué)習(xí)音頻—視覺(jué)模型,用于將單個(gè)語(yǔ)音信號(hào)與背景噪聲、其他人聲等混合聲音分離開(kāi)來(lái)。我們通過(guò)計(jì)算生成視頻,增強(qiáng)其中特定人員的語(yǔ)音,同時(shí)減弱其他人的聲音。此方法用在具有單個(gè)音頻軌道的普通視頻上,用戶需要做的就是在視頻中選出他們想要聽(tīng)到的說(shuō)話者的面部,或者結(jié)合語(yǔ)境用算法選出這樣的人。我們認(rèn)為此方法用途廣泛,從視頻中的語(yǔ)音增強(qiáng)和識(shí)別、視頻會(huì)議,到改進(jìn)助聽(tīng)器,不一而足,尤其適用于有多個(gè)說(shuō)話人的情景。
這項(xiàng)技術(shù)的獨(dú)特之處在于結(jié)合了輸入視頻的聽(tīng)覺(jué)和視覺(jué)信號(hào)來(lái)分離語(yǔ)音。直觀地講,人嘴部的運(yùn)動(dòng)應(yīng)當(dāng)與這個(gè)人說(shuō)話時(shí)產(chǎn)生的聲音相關(guān)聯(lián),這反過(guò)來(lái)又可以幫助識(shí)別音頻的哪些部分對(duì)應(yīng)于這個(gè)人。視覺(jué)信號(hào)不僅可以在混合語(yǔ)音的情況下顯著提高語(yǔ)音分離質(zhì)量(與僅僅使用音頻的語(yǔ)音分離相比,與我們的論文得出的結(jié)論相同),但是重要的是,它還能夠?qū)⒎蛛x的干凈語(yǔ)音軌道與視頻中的可見(jiàn)說(shuō)話者相關(guān)聯(lián)。
在我們的方法中,輸入是具有一個(gè)或多個(gè)說(shuō)話者的視頻,其中我們需要的語(yǔ)音受到其他說(shuō)話者和(或)背景噪聲的干擾。輸出是輸入音頻軌道分解成的干凈語(yǔ)音軌道,其中每個(gè)語(yǔ)音軌道來(lái)自視頻中檢測(cè)到的每一個(gè)人。
音頻—視覺(jué)語(yǔ)音分離模型
為了生成訓(xùn)練樣本,我們首先從 YouTube 上采集了 10 萬(wàn)個(gè)高質(zhì)量講座和演講視頻。然后從視頻中提取帶有清晰語(yǔ)音的片段(例如沒(méi)有混合音樂(lè)、觀眾聲音或其他說(shuō)話者聲音的片段)和視頻幀中只有一個(gè)說(shuō)話者的片段。這樣得到了大約 2000 小時(shí)的視頻剪輯,鏡頭中出現(xiàn)的是單個(gè)人,且說(shuō)話的時(shí)候沒(méi)有背景干擾。之后,我們使用這些干凈數(shù)據(jù)生成"合成雞尾酒會(huì)",即,將人臉視頻、來(lái)自單獨(dú)視頻源的對(duì)應(yīng)語(yǔ)音及從 AudioSet 獲取的無(wú)語(yǔ)音背景噪聲混合在一起。
使用這些數(shù)據(jù),我們能夠訓(xùn)練基于多流卷積神經(jīng)網(wǎng)絡(luò)的模型,將合成雞尾酒會(huì)混合片段分割成視頻中每個(gè)說(shuō)話者的單獨(dú)音頻流。網(wǎng)絡(luò)輸入是從每一幀檢測(cè)到的說(shuō)話者臉部縮略圖中提取的視覺(jué)特征以及視頻聲道的聲譜圖表示。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)(分別)學(xué)習(xí)視覺(jué)和聽(tīng)覺(jué)信號(hào)的編碼,然后將其融合在一起,形成一個(gè)聯(lián)合音頻—視覺(jué)表示。利用這種聯(lián)合表示,網(wǎng)絡(luò)可以學(xué)習(xí)為每個(gè)說(shuō)話者輸出時(shí)頻掩碼。輸出掩碼乘以帶噪聲的輸入聲譜圖,然后轉(zhuǎn)換成時(shí)域波形,以獲取每位說(shuō)話者單獨(dú)、干凈的語(yǔ)音信號(hào)。如需了解完整的詳細(xì)信息,請(qǐng)參閱我們的論文,論文鏈接:
https://arxiv.org/abs/1804.03619
基于多流神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)。
以下是使用我們的方法得到的語(yǔ)音分離和增強(qiáng)結(jié)果(先播放帶混合或嘈雜語(yǔ)音的輸入視頻,然后播放增強(qiáng)結(jié)果)。所選說(shuō)話者之外的另一個(gè)人的聲音可以完全消去,或被抑制到所需的音量級(jí)別。
在語(yǔ)音識(shí)別中的應(yīng)用
我們的方法也可以作為預(yù)處理程序應(yīng)用于語(yǔ)音識(shí)別和自動(dòng)視頻字幕添加。處理語(yǔ)音重疊的說(shuō)話者對(duì)于自動(dòng)字幕添加系統(tǒng)來(lái)說(shuō)很有挑戰(zhàn)性,將音頻分離為不同的來(lái)源可以幫助生成更加準(zhǔn)確、易讀的字幕。
點(diǎn)擊播放上面視頻,小編已經(jīng)為你準(zhǔn)備好帶有 YouTube 自動(dòng)字幕的視頻。
我們的項(xiàng)目網(wǎng)頁(yè)提供了更多結(jié)果,以及此技術(shù)與最先進(jìn)的純音頻語(yǔ)音分離和近期其他視聽(tīng)語(yǔ)音分離工作的對(duì)比情況。事實(shí)上,隨著深度學(xué)習(xí)領(lǐng)域近期不斷取得進(jìn)展,學(xué)術(shù)界對(duì)視聽(tīng)分析的關(guān)注顯著增加。在我們進(jìn)行本研究的同時(shí),其他機(jī)構(gòu)也紛紛進(jìn)行了不同的研究,例如,加州大學(xué)伯克利分校的一項(xiàng)研究分析了如何使用自我監(jiān)督的方法來(lái)分離畫(huà)面內(nèi)/外說(shuō)話者的語(yǔ)音,MIT 的一項(xiàng)研究則解決了如何分離屏幕上多個(gè)物體(例如樂(lè)器)的聲音,同時(shí)定位發(fā)出聲音的圖像區(qū)域這一問(wèn)題。
我們認(rèn)為這項(xiàng)技術(shù)的應(yīng)用前景十分廣闊。我們目前正在探索如何將此技術(shù)整合到各種 Google 產(chǎn)品中。敬請(qǐng)期待!
Looking to Listen 項(xiàng)目網(wǎng)頁(yè):
https://looking-to-listen.github.io/?
致謝
本文介紹的研究由 Ariel Ephrat(實(shí)習(xí)生)、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、Bill Freeman 和 Michael Rubinstein 共同完成。我們要感謝 Yossi Matias 和 Google Research Israel 對(duì)項(xiàng)目的支持,以及 John Hershey 提供的寶貴意見(jiàn)。我們還要感謝 Arkady Ziefman 在動(dòng)畫(huà)和人物方面提供的幫助,感謝 Rachel Soh 幫助我們獲取文中所用視頻內(nèi)容的權(quán)限。
來(lái)源:?TensorFlow
總結(jié)
以上是生活随笔為你收集整理的多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 机器学习:怎样才能做到从入门到不放弃?
- 下一篇: 我敢打赌,这世界没有python数据分析