语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
聲明:平時(shí)看些文章做些筆記分享出來(lái),文章中難免存在錯(cuò)誤的地方,還望大家海涵。搜集一些資料,方便查閱學(xué)習(xí):http://yqli.tech/page/speech.html。語(yǔ)音合成領(lǐng)域論文列表請(qǐng)?jiān)L問(wèn)http://yqli.tech/page/tts_paper.html,語(yǔ)音識(shí)別領(lǐng)域論文統(tǒng)計(jì)請(qǐng)?jiān)L問(wèn)http://yqli.tech/page/asr_paper.html。如何查找語(yǔ)音資料請(qǐng)參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉(zhuǎn)載,請(qǐng)注明出處。歡迎關(guān)注微信公眾號(hào):低調(diào)奮進(jìn)。
Recent Advances in End-to-End Automatic Speech Recognition
本篇綜述是微軟JINYU LI在2021.11.02更新的文章,主要從產(chǎn)業(yè)界的角度對(duì)最近幾年端到端ASR的發(fā)展進(jìn)行總結(jié),感興趣的讀者可以閱讀該文章,具體的文章鏈接?https://arxiv.org/pdf/2111.01690.pdf
一?介紹
相對(duì)于傳統(tǒng)的混合模型的ASR,端到端E2E的ASR系統(tǒng)具備以下優(yōu)點(diǎn):1)混合模型的每個(gè)模塊優(yōu)化都是單獨(dú)優(yōu)化,不能保證獲取全局最優(yōu),而E2E的ASR使用一個(gè)優(yōu)化函數(shù)來(lái)優(yōu)化整個(gè)網(wǎng)絡(luò);2)E2E的ASR直接輸出character或者words,簡(jiǎn)化流程;而混合模型的每個(gè)模塊都需要相應(yīng)的專業(yè)知識(shí);3)相對(duì)于混合模型,e2e模型使用一個(gè)網(wǎng)絡(luò)進(jìn)行識(shí)別,整個(gè)系統(tǒng)更加緊湊,可以更便捷在設(shè)備上部署。雖然端到端的ASR具備以上優(yōu)點(diǎn),而且在很多benchmarks超過(guò)混合模型,但混合模型在工業(yè)界依然占據(jù)主要市場(chǎng)。混合模型在工業(yè)界發(fā)展數(shù)十年,在streaming,latency,adaptation capability,accuracy等方面的方案技術(shù)有較厚的積累,e2e的asr要想替代混合模型,必須在以上諸多方面超越混合模型。本文為了促進(jìn)e2e的asr方案落地,從工業(yè)界的角度對(duì)近年來(lái)的e2e的方案進(jìn)行總結(jié),更好的應(yīng)對(duì)以上的挑戰(zhàn)。
二?端到端模型(end-to-end models)
現(xiàn)在主流的E2E的ASR模型主要包括?a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer?。其主要網(wǎng)絡(luò)結(jié)構(gòu)如圖一所示
其中CTC的結(jié)構(gòu)如圖1(a)所示,本文簡(jiǎn)單舉例ctc?path如圖2
圖1(b)為AED模型,其為了實(shí)現(xiàn)streaming方式,需要對(duì)attention進(jìn)行處理,本文列舉了AED使用的四種attention,如圖3所示
RNN-T主要如圖1(c)所示。以上結(jié)構(gòu)詳細(xì)信息請(qǐng)讀者閱讀該文章。
三?Encoder
端到端的ASR主要部分encoder,該部分主要把輸入信息進(jìn)行高級(jí)的特征表示,本文對(duì)encoder使用的結(jié)構(gòu)類型進(jìn)行總結(jié)
? ? A)?Lstm
? ? B)?Transformer
? ? ? ??圖5展示了transfomer和目前流行的confomer結(jié)構(gòu)。
為了實(shí)現(xiàn)streaming?ASR,需要在attention使用mask策略,使其只看到部分的context。圖6展示了不同的attenion及對(duì)應(yīng)的mask矩陣。
四?其它的訓(xùn)練準(zhǔn)則
A) teacher-student learning
B) Minimum Word Error Rate Traing
五?多語(yǔ)言模型
?本部分主要介紹多語(yǔ)言模型以及方案,主要介紹了使用語(yǔ)言ID(LID)的優(yōu)劣和CMM方案,以及code-switching在句內(nèi)和句間的挑戰(zhàn)。
六?自適用
?A) speaker adaptation
主要使ASR在對(duì)應(yīng)的個(gè)人效果更好,常用的方案使用speaker?embeddings對(duì)應(yīng)的語(yǔ)料進(jìn)行微調(diào),但更多情況下是如何處理每個(gè)說(shuō)話人擁有較少語(yǔ)料。而且本部分也提到如何在用戶端進(jìn)行訓(xùn)練,不需要把用戶數(shù)據(jù)發(fā)送到服務(wù)端,從而保證用戶數(shù)據(jù)安全。
B)Domain?Adaptation
?該部分主要介紹Domain?Adaptation,其主要介紹使用文本進(jìn)行LM方案和TTS-based的方案。
C) Customization
七?Advanced Models
??A)非自回歸模型Non-Autoregressive Models
B)?Unified Models
??流式和非流式方案的結(jié)合,動(dòng)態(tài)計(jì)算等等
C)Two-pass Models
??
D)?Multi-talker Models
E)Multi-channel Models
八?多種多樣的主題
a)?更多語(yǔ)音的toolkits
?b)?系統(tǒng)使用的建模單元:characters,word-piece,words等等
?c)?limited data,data?augmentation, self-supervised等等
?d)?模型部署的研究,模型壓縮,量化等等
?e)?asr模型的輸入直接使用waveform而不是聲學(xué)特征等等。
?f)?魯棒性的研究
九?總結(jié)
本文列舉端到端ASR相比混合模型方案的優(yōu)勢(shì)以及劣勢(shì)。?為了促進(jìn)端到端對(duì)混合模型在工業(yè)界的替代,本文詳細(xì)描述了端到端ASR的模型、挑戰(zhàn)以及各種解決方案。最后作者也可列舉端到端ASR未來(lái)的挑戰(zhàn)。
總結(jié)
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 符合python语言变量命名规则_符的解
- 下一篇: postgrepsql 安装失败