搜狗发布新研究:语音+唇语让语音识别更准确
曉查發自凹非寺
量子位出品 公眾號 QbitAI
未來的人類如何與機器人交流?我們既需要機器人模仿人類的語氣、表情、動作,同樣也需要機器人能理解我們。
搜狗 AI 正在朝著這一步邁進:由人類說一段話,AI 根據唇形和語音準確識別內容。最近搜狗與清華天工研究院合作,在語音和唇語的多模態識別方面取得了重大成果。
相關論文《基于模態注意力的端到端音視覺語音識別》已經發表在今年的學術會議ICASSP上。
ICASSP 是全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,是 IEEE 的一個重要的年度會議,對于信號處理方面的學術人士有著重要意義。
5 月 12 日至 17 日,在英國布萊頓舉辦的學術會議上,搜狗的研究人員匯報了他們的研究成果,顯示了搜狗在語音識別、多模態識別領域的技術領先性和原創實力。
語音+唇語識別
隨著語音識別的快速發展,純粹靠聲音的識別技術越來越成熟,識別準確率達到 98% 以上,很多公司,包括搜狗在內都推出了成熟的產品,比如搜狗輸入法語音輸入和搜狗智能錄音筆等。
但是純粹依靠語音的識別方式存在一個缺陷,就是無法在嘈雜環境下仍然保持較高的識別準確率。
通常當語音環境比較安靜時,語音識別的準確率會比較高,但當語音環境較為嘈雜時,語音識別的準確率會明顯下降。
而視覺的識別方法不受環境聲音的影響,人在嘈雜環境下,聽不清對方講話時,會自然的盯緊講話者的嘴巴,大致明白講話者的意思。實際上聽力障礙人士,正是通過講話者的唇語進行交流的。
搜狗研究人員想到,如果讓 AI 也能把這兩種方法結合起來,就能提高語音識別的準確率。
早在 2017 年年底,搜狗就已經發布了一個唇語識別的初步成果,是業內首家公開展示唇語識別的公司。但當時的準確率僅有 50%~60%,限制了它的實際應用,而且搜狗語音和唇語的技術也一直是分開做的。
經過一年多的發展,唇語識別技術已經有了很大的提升,搜狗團隊開始考慮將聽覺與視覺兩種識別的模式融合起來,即所謂的“多模態”識別,這是搜狗唇語識別繼烏鎮互聯網大會發布后的新突破。
原理簡介
但多模態識別不是簡單的把音頻和視頻的識別疊加起來,在這個過程中,研究人員需要克服兩個難題。
1、音頻和視頻幀率不同
聲音和視覺特征是兩種本質上差異很大的模態,而且原始幀速率通常不一樣,音頻為每秒 100 幀,而視頻為每秒 24 幀。
采用直接拼接的方法會造成信息損失,使得聽覺特征在模型訓練過程中起到主導作用,造成模型訓練難收斂,視覺信息對聽覺信息的提升有限。
2、如何選擇音頻和視頻的貢獻比例
在安靜的情況下應該是語音占主導,在嘈雜環境下一定是視頻占主導。如何根據不同的環境選擇二者的比例。
搜狗的做法是 “基于注意力的編碼器解碼器”。在這個框架下,分別使用兩個神經網絡編碼器對輸入的不同模態的序列進行逐層特征抽取,得到高層特征表達。然后,由解碼器分別對不同模態的特征表達進行注意力計算,得到聲音和視覺模態信息中對應于當前解碼時刻的上下文向量(context vector)。不同模態的上下文向量經由模態間的注意力自動對不同模態的信息進行融合,并輸入到輸出層得到解碼輸出。
可見在編解碼框架下,由于融合的是不同模態的 context vector,而不是對原始特征或者編碼器輸出的高層特征進行直接融合,解決了不同模態的特征長度不同的問題。
同時,這種模態注意力(Modality Attention)依據不同模態各自的重要程度計算出相應的融合系數,反應了不同模態在當前解碼時刻的不同貢獻度,可以隨著不同解碼時刻的不同信噪比等得到不同的模態融合權重,得到更加魯棒的融合信息。
搜狗從去年 6 月開始立項,10 月就完成并投遞了論文,在這個過程中,融合模型的設計是其中最困難的一步,研究人員周盼介紹說,他們在這個問題上花費了大約一半的時間。
實驗結果證實了搜狗努力獲得的回報。在信噪比為 0dB(信號與噪聲大小相當)時,搜狗的多模態識別將準確率提高了 30%。
而且模型在不同噪聲下,體現出了對語音和視頻兩種不同模態間的依賴。隨著噪聲的提升,模型在融合音視覺時,對視覺信息的依賴比例在逐漸提升。
0dB 信噪比時,視頻的注意力權重接近 40%,高于語音清晰環境中 35.9% 的比例。
應用前景
現場,搜狗像我們展示了一段 Demo,模擬了各種嘈雜環境下的多模態識別。
在模擬乘坐地鐵的環境中,可以看到無論是單獨的語音識別和唇語識別都無法正確還原原來的語句,但是二者結合起來,就可以正確識別出“北京今天天氣怎么樣”這句話。
語音交互技術中心首席科學家陳偉還特別指出,視頻識別還能根據唇形識別語句在何處結束,也提高了在嘈雜環境下識別的準確率。
這么實用的功能何時才能用上呢?陳偉預計,多模態語音識別將在搜狗的手機輸入法中集成,目前搜狗還在和車廠合作通過車內的麥克風、攝像頭做出更準確的語音識別。
輸入法走向對話、搜索走向問答,是搜狗一項長期戰略。未來視頻識別的場景會越來越多,所以搜狗認為多模態識別是 NLP 研究發展的一個必然的趨勢。
當然,在搜狗暢想的未來中,多模態識別的終極形態就是與 AI 分身的結合。
總結
以上是生活随笔為你收集整理的搜狗发布新研究:语音+唇语让语音识别更准确的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比特币“闪崩”:一度暴跌逾20% 跌破6
- 下一篇: 迅雷卡在在了区块链下载上