當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别（ASR)论文优选：SynthASR: Unlocking Synthetic Data for Speech Recognition

發(fā)布時間：2024/1/8 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别（ASR)论文优选：SynthASR: Unlocking Synthetic Data for Speech Recognition 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。平時搜集一些資料，方便查閱學(xué)習(xí)：http://yqli.tech/page/speech.html。如轉(zhuǎn)載，請標(biāo)明出處。歡迎關(guān)注微信公眾號：低調(diào)奮進

SynthASR: Unlocking Synthetic Data for Speech Recognition

本文為Alexa Speech, Amazon.com在2021.06.14更新的文章，主要使用tts合成的語料來優(yōu)化ASR，從而提高ASR的性能，具體的文章鏈接

https://arxiv.org/pdf/2106.07803.pdf

1?背景

e2e的asr比傳統(tǒng)的hybird asr在性能顯出突出的優(yōu)勢，但訓(xùn)練ASR模型需要大量的標(biāo)注數(shù)據(jù)，這將需要很大的成本開銷。同時，tts系統(tǒng)合成的語音質(zhì)量可以媲美人類的自然語音，而且可以合成不同風(fēng)格和韻律的語音，因此使用TTS合成的語音來優(yōu)化ASR成為本文研究的重點。

2?詳細(xì)設(shè)計

本文使用的tts為multi-speaker tts，其中包括對prosody和speaker建模的encoder，具體的結(jié)構(gòu)如圖2所示。另外asr使用了rnn-t的結(jié)構(gòu)，具體如圖1所示，tts合成的不同風(fēng)格不同說話人的語料來給rnn-t來訓(xùn)練。另外，本文使用multi-stage 訓(xùn)練策略來適用不同domain的應(yīng)用，避免了 catastrophic forgetting問題，為了避免使用合成數(shù)據(jù)造成參數(shù)更新范圍太大，提出了如公式2的elastic penalty。

3?實驗

本文使用LibriSpeech 960h數(shù)據(jù)來訓(xùn)練rnn-t作為benchmark，然后使用480h數(shù)據(jù)訓(xùn)練rnn-t作為baseline,然后使用480h+syn 1150h小時訓(xùn)練rnn-t，結(jié)果如table1 所示，使用480h+syn 1150h比只使用480h的效果較好。?table 2使用multi-stage來訓(xùn)練rnn-t的效果，結(jié)果顯示使用multi-stage可以提高性能。

4?總結(jié)

本文使用TTS合成的語音和multi-stage 訓(xùn)練方法來優(yōu)化ASR的性能，從而降低其wer。

總結(jié)

以上是生活随笔為你收集整理的语音识别（ASR)论文优选：SynthASR: Unlocking Synthetic Data for Speech Recognition的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： VScode 无法保存，文件内容较新
下一篇： Arcgis For Android实现