语音识别(ASR)论文优选:WeNet之U2++
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。平時搜集一些資料,方便查閱學(xué)習(xí):http://yqli.tech/page/speech.html。如轉(zhuǎn)載,請標(biāo)明出處。歡迎關(guān)注微信公眾號:低調(diào)奮進(jìn)
以前閱讀的是語音合成相關(guān)的代碼,現(xiàn)在有機(jī)會做一些識別相關(guān)的工作,所以接下來也會整理識別相關(guān)的資料。
U2++: Unified Two-pass Bidirectional?End-to-end Model for Speech Recognition
本文是出門問問聯(lián)合西北工業(yè)大學(xué)在2021.06.10更新的文章,在統(tǒng)一streaming和non-streaming的u2基礎(chǔ)提出u2++,使其錯誤率下降,具體文章鏈接https://arxiv.org/pdf/2106.05642.pdf
(關(guān)于u2和wenet可以參考我上一篇文章https://mp.weixin.qq.com/s/6_BIKrZ1I99NwITETiwISQ)
1?背景
端到端的ASR最近幾年受到學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注,諸如CTC, RNN-T,AED(attention based encoder-decoder)等等。上篇文章Wenet和U2提出了一種統(tǒng)一streaming和non-streaming模式的方案,使其一個模型可以支持streaming和non-streaming模式,本文在U2的基礎(chǔ)上提出U2++,使其錯誤率更低。
2 具體設(shè)計
我們先回顧一下U2的設(shè)計?。針對streaming 和non-streaming的U2模型即為CTC/AED的混合模型。具體的系統(tǒng)架構(gòu)如圖1所示,CTC和AED使用共同的encoder,為了實現(xiàn)streaming方式,encoder就要實現(xiàn)增量式來編碼,即使用部分context來編碼。我們先看一下圖2展示的encoder可采用的關(guān)注context的方案,(a)full attention就是關(guān)注整句話語境,這種方式為non-streaming,效果當(dāng)然很好;(b)的left attention即只關(guān)注過去,是streaming的方式,當(dāng)然效果較差。(c)即為本文的提出的chunk attention,它關(guān)注本chunk以及過去的語境,及引入少量未來信息。另外我們需要分清該系統(tǒng)如何進(jìn)行訓(xùn)練和推理。在訓(xùn)練系統(tǒng)時,每個batch隨機(jī)在full attention和chunk attention之間進(jìn)行選擇,同時chunk size也隨機(jī)選取,本方案即train by dynamic chunk size ,具體為公式2
以上為U2,那U2++的工作即添加了從右到左的attention decoder,具體如下圖所示,相比于U2,U2++的attention存在L2R和R2L兩個decoder,即Bi-directional Attention Decoder?。該模型訓(xùn)練的loss為公式1和2,其中的超參選取大小由接下來的實驗給出?選擇值。同時解碼的score可參考公式3
另外本文優(yōu)化了新的數(shù)據(jù)增廣算法,可參考算法1.
3?實驗
本文先在aishell-1進(jìn)行試驗,同時也對比使用transformer和conformer的?結(jié)果。由table1顯示無論ctc prefix beam search 和rescoring,u2++的cer低于u2?。圖2展示u2++的整體loss較低于u2?。接下來在aishell-2的實驗亦是如此,參考table3?。table4展示本文的R2L和specSub?對實驗結(jié)果的影響。table?5展示了系統(tǒng)decoder層數(shù)和r2l?l2R?的效果。table?6展示了超參選取的?效果。table?7展示r2l?l2R?層數(shù)的影響。
4?總結(jié)
U2提出了一種統(tǒng)一streaming和non-streaming模式的方案,使其一個模型可以支持streaming和non-streaming模式,本文在U2的基礎(chǔ)上提出U2++,添加L2R和R2L兩個attention decoder,使其錯誤率更低?
總結(jié)
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:WeNet之U2++的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超级AI大脑:全能型学习助理
- 下一篇: POWERDNS + LVS + LAM