语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。平時搜集一些資料,方便查閱學(xué)習(xí):http://yqli.tech/page/speech.html。如轉(zhuǎn)載,請標(biāo)明出處。歡迎關(guān)注微信公眾號:低調(diào)奮進
SynthASR: Unlocking Synthetic Data for Speech Recognition
本文為Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的語料來優(yōu)化ASR,從而提高ASR的性能,具體的文章鏈接
https://arxiv.org/pdf/2106.07803.pdf
1?背景
e2e的asr比傳統(tǒng)的hybird asr在性能顯出突出的優(yōu)勢,但訓(xùn)練ASR模型需要大量的標(biāo)注數(shù)據(jù),這將需要很大的成本開銷。同時,tts系統(tǒng)合成的語音質(zhì)量可以媲美人類的自然語音,而且可以合成不同風(fēng)格和韻律的語音,因此使用TTS合成的語音來優(yōu)化ASR成為本文研究的重點。
2?詳細(xì)設(shè)計
本文使用的tts為multi-speaker tts,其中包括對prosody和speaker建模的encoder,具體的結(jié)構(gòu)如圖2所示。另外asr使用了rnn-t的結(jié)構(gòu),具體如圖1所示,tts合成的不同風(fēng)格不同說話人的語料來給rnn-t來訓(xùn)練。另外,本文使用multi-stage 訓(xùn)練策略來適用不同domain的應(yīng)用,避免了 catastrophic forgetting問題,為了避免使用合成數(shù)據(jù)造成參數(shù)更新范圍太大,提出了如公式2的elastic penalty。
3?實驗
本文使用LibriSpeech 960h數(shù)據(jù)來訓(xùn)練rnn-t作為benchmark,然后使用480h數(shù)據(jù)訓(xùn)練rnn-t作為baseline,然后使用480h+syn 1150h小時訓(xùn)練rnn-t,結(jié)果如table1 所示,使用480h+syn 1150h比只使用480h的效果較好。?table 2使用multi-stage來訓(xùn)練rnn-t的效果,結(jié)果顯示使用multi-stage可以提高性能。
4?總結(jié)
本文使用TTS合成的語音和multi-stage 訓(xùn)練方法來優(yōu)化ASR的性能,從而降低其wer。
總結(jié)
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VScode 无法保存,文件内容较新
- 下一篇: Arcgis For Android实现