EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!
文 | 小軼(yì)
背景
今天上午十點剛剛頒布的EMNLP 2020最佳論文,獲獎?wù)呤莵碜訳CBerkeley團隊的這篇Digital Voicing of Silent Speech。
刷了那么多NLP論文,各種pretraining、BERT、XXX-former...是不是都快刷出審美疲勞了?今年的EMNLP best paper絕對耳目一新!!工作研究了一個極具潛在社會影響力的新任務(wù):Silent Speech Voicing——通過肌電傳感器,把無聲的說話動作轉(zhuǎn)化為電子語音。如果該技術(shù)得以實現(xiàn),即使不發(fā)生聲帶振動,只要做出相應(yīng)的發(fā)聲動作,即迅速轉(zhuǎn)換為語音。想象一下,或許未來有一天,只要動動嘴,都不用發(fā)出聲音,就能和人打電話了!
該技術(shù)可能的應(yīng)用場景非常廣泛,包括:
過分嘈雜的環(huán)境(普通的有聲電話難以識別清楚)
必須要保持安靜的嚴肅場合 (開會摸魚新思路)
最最重要的是,那些不幸喪失發(fā)聲能力的人們也將能夠與身邊人流暢地交流啦!
這個任務(wù)顯然具有非常大的前景和潛在社會影響。其實近十年也有一些少量工作嘗試做類似的事情,但效果都非常不好,讓人覺得這事兒可能目前的技術(shù)一時半會還實現(xiàn)不了。但emnlp這篇大大提升了實驗效果——在一組主要實驗中,和之前最強的baseline相比,誤差率直降94%??傊?#xff0c;很大程度上證明這個方向還是achievable,大家努努力說不定能成的那種!并且,他們也同時發(fā)布了一個針對該任務(wù)的大規(guī)模數(shù)據(jù)集。鑒于其深遠的應(yīng)用前景,可以想見之后應(yīng)該會有大量工作繼續(xù)follow。而這篇best paper也將成為該任務(wù)的開山之作。
論文題目:
Digital Voicing of Silent Speech
論文鏈接:
https://arxiv.org/pdf/2010.02960.pdf
開源代碼:
https://github.com/dgaddy/silent_speech
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞 【1119】 下載論文PDF~
方法
接下來,我們簡單看一下實現(xiàn)過程~首先第一步是傳感器信號采集,需要在嘴和頸脖周圍貼上八個傳感器,像這樣:
然后就會得到八串肌電圖信號,像這樣:
接下來的任務(wù),就是如何基于肌電圖信號,識別出具體的語言信息了。信號轉(zhuǎn)文字的相關(guān)研究其實已經(jīng)有很多了,emnlp這篇的主要貢獻其實并不在這一部分,而在于他們發(fā)現(xiàn)、并解決了之前研究中的一個問題:前人采用的訓(xùn)練數(shù)據(jù)都是人在“出聲”說話時的肌電信號。但這篇工作則證明,要實現(xiàn)silent speech voicing,必須要用人在“不發(fā)聲”說話時的肌電信號,因為這兩種場景下人的肌肉運作方式是不一樣的。motivation很顯然,但事實上實現(xiàn)起來是有困難的。因為對于無聲的信號來說,是沒有對應(yīng)的語音信號的,很難直接標記出某一段信號對應(yīng)了哪個單詞。他們的解決方法是:對同一段文字,先采集一遍人們說這段話時的有聲信號,再采集一遍無聲信號。然后讓模型在兩種信號上都進行訓(xùn)練。兩種數(shù)據(jù)在時間上并不是完全對齊的,所以該模型最核心的一個模塊,就是實現(xiàn)兩種信號的對齊。
實驗
實驗中,評測的方式就是請志愿者(或者用語音識別模型)聽寫轉(zhuǎn)換出來的電子語音。評測指標是word error rate (WER),直觀來說就是和原文的最短編輯距離除以文本長度:
(向右滑動查看完整公式)
主要測試了兩種設(shè)定下的性能表現(xiàn)(兩者主要區(qū)別其實就是前者包含的詞匯量少很多):
Closed Vocabulary Condition
Open Vocabulary Condition
測試結(jié)果如下表??梢钥吹?#xff0c;在Closed Vocabulary場景下,WER僅有3.6%,比baseline的誤差率減少了94%。在Open Vocabulary場景下,也比baseline降低了20%左右的WER。
小結(jié)
今年emnlp的best paper頒給了一個非典型的NLP任務(wù)。但確實是很酷的工作!是那種會真正產(chǎn)生社會影響的一類研究~所以說,NLP不止是“萬物皆可BERT”,NLP的未來也不只有瘋狂pretraining。還有很多有意義的方向值得我們?nèi)ヌ剿髂?#xff01;
P.S 從今天起,小軼我筆名改做“小軼(yì)”啦。不是小秩(zhì)。也不是小鐵(tiě)哦!
萌屋作者:小軼(yì)
剛剛本科畢業(yè)于北大計算機系的美少女學(xué)霸!目前在騰訊天衍實驗室做NLP研究實習(xí)生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦~文風(fēng)溫柔優(yōu)雅,偶爾暴露呆萌屬性,文如其人哦!知乎ID:小軼。
作品推薦:
1.谷歌重磅:可以優(yōu)化自己的優(yōu)化器!手動調(diào)參或?qū)⒊蔀闅v史!?
2.有錢可以多任性?OpenAI提出人肉模型訓(xùn)練,文本摘要全面超越人類表現(xiàn)!
3.ACL20 Best Paper揭曉!NLP模型評價體系或?qū)⒂瓉碇卮筠D(zhuǎn)折
4.Attention模型:我的注意力跟你們?nèi)祟惒灰粯?/p>
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結(jié)
以上是生活随笔為你收集整理的EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Git使用的奇技淫巧
- 下一篇: 开源词法分析工具LAC重大升级!打造属于