语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史
聲明:工作以來主要從事TTS,VC以及ASR等等相關工作,平時看些文章做些筆記。文章中難免存在錯誤的地方,還望大家海涵。平時搜集一些資料,方便查閱學習:TTS 論文列表 http://yqli.tech/page/tts_paper.html TTS 開源數據 http://yqli.tech/page/data.html。如轉載,請標明出處。歡迎關注微信公眾號:低調奮進
?(本文稍長,希望大家看完,而不是收藏之后等以后慢慢看)
大家平時對Incremental TTS(iTTS)關注較少,可能會問iTTS是如何工作?完成那些工作?對于iTTS的介紹屈指可數,今年出來的幾篇語音合成的survey(可以參考語音合成論文優選:語音合成綜述(2021)https://mp.weixin.qq.com/s/m6juWxML0E_e83fvs4k0Aw)也沒有相關主題的總結,因此我這里就嘮一嘮該方向的研究。iTTS主要是根據部分語境(當前word以及前邊已經觀察到的word序列)來合成音頻,其研究沒有被重視的原因主要其語音質量無法與整句合成效果好,但其latency理論上是純正的streaming。再進入主題之前,我先把幾個術語捋一捋。ASR很多研究涉及streaming,該streaming對應本文的increamental,因此我們稱增量式tts為streaming?TTS或者increamental TTS。另外,real-time語音合成系統主要特點就是latency小,因此很多文章和研究人員習慣把具備局部streaming特點的TTS也稱為streaming TTS(主要latency較小),這里我們沒必要較真(有位朋友曾跟我探討過streaming TTS和real-time TTS區別,其實real-time TTS是包括streaming TTS)。接下來我們進入主題。
本文主要講解以下的幾篇文章
segment-level的iTTS
1 Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework?
2019.09
https://ahcweb01.naist.jp/papers/conference/2019/201909_SSW_tomoya-ya_1/201909_SSW_tomoya-ya_1.paper.pdf
使用future?context的探索研究
2 What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS
2020.09.04
https://arxiv.org/pdf/2009.02035.pdf
3?Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input
2021.02.15
https://arxiv.org/pdf/2102.09914.pdf
4?Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model
2021.04.14
https://arxiv.org/pdf/2012.12612.pdf
5 Low-Latency Incremental Text-to-Speech?Synthesis with Distilled Context Prediction Network
2021.09.22
https://arxiv.org/pdf/2109.10724.pdf
局部streaming,但具備更多的落地場景
6?High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency
interspeech 2020
https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2464.pdf
??第一篇Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework?
這篇文章是最早在基于神經網絡的TTS上進行iTTS的研究,其主要在tacotron(圖1)架構上進行english和japanese的試驗。該iTTS如2所示進行片段式segment的合成,即逐塊chunk模式合成然后再進行拼接,結果為圖5圖6所示。
第二篇What the Future Brings:?Investigating the Impact of Lookahead for?Incremental Neural TTS
該篇文章主要探索iTTS需要具備多長的future context才能提高語音合成質量。本文是在tacotron系統上進行的實驗,encoder和decoder都要做相應的處理。encoder的處理如table1所示,其中n代表一句話中該word的位置,k是向后看幾步。decoder部分的如圖1所示,合成增量的每部分音頻,然后進行拼接。
先看一下encoder部分增量k對每個word的影響,其中對比的為原始tacotron系統full,就是處理整個句子。可以看出隨著k增大,其結果趨近于原始full的結果。圖3的結果亦是如此,其中選擇k=2的情況,可以較好的實現iTTS。table2給出了各種參數對iTTS的效果影響。table4顯示合成音頻的質量受到k的大小影響。
?第三篇Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input
上篇文章主要研究當前word受到future?context的影響大小。本文使用語言模型GPT2來預測該語境,來優化iTTS的自然度。詳細的設計為圖1所示,使用GPT2預測下一個詞,然后使用聲學模型和聲碼器合成語音。其中table1展示了集中對比系統,Ground truth為完整句子, Unkonwn k=0,不做任何處理,Ground Truth k=1,完整句子中獲取下一個詞,GPT2 k=1使用gpt2預測下一個, random是隨機預測一下詞。
該方案的結果
圖2展示了時長預測,可以看出GPT2的結果是弱于全句子和GT k=1,但好于k=0和random。tabel2和table3都展示一致的結果。
第四篇Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model
本文相對上一篇主要添加如圖1虛線所示添加textual embedding network模塊,該模塊通過observed segment和預測的future segment來生成context embedding信息。
該方案的實驗圖table 1所示bicontext把MOS和CER,WER提高很多,不斷接近full-sentence。
第五篇?Low-Latency Incremental Text-to-Speech?Synthesis with Distilled Context Prediction Network
以上幾篇文章引入語言模型GPT2會增加時間開銷,因此本文在第四篇文章基礎上通過知識蒸餾方法對語言模型gpt2和contextual embedding network進行蒸餾,其student只要使用observer segment和current segment就預測contextual embedding,從而提高推理速度。
該方案的試驗結果如圖table 1和圖4所示,相比第四篇文章,推理速度提高10倍。
?
第六篇?High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency
為了減小latency,本文提出了聲學模型decoder和聲碼器streaming的合成系統,無論句子多長,都可以近乎常量時間返回首段音頻。本文是在taotron+lpcnet系統上實現,具體的實現為圖1所示。在tacotron的decoder的部分添加一個buffer,當buffer滿了之后就可以進行post-net網絡,(需要注意的是buffer大小要大于post-net的視野長度),同理輸出的幀數大于lpcnet的encoder的感受視野就可以進行音頻的合成。這樣的模式可以使tacotron和lpcnet同時進行合成,而不需要等待tacotron合成整個句子的聲學特征后才進行lpcnet的合成
該方案試驗結果。首先table1顯示r的影響,當r增加可以減少latency,但超過7以后就會急劇下降,這是因為每個step不能涵蓋那么多幀的信息,而r=2的效果沒有3號,可能因為還沒有收斂所致。table2對比了集中常用的語音合成系統,由結果可知,本文的流模式latency幾乎最低,逼近常量時間,緩慢上升是由于tacotron的encoder部分隨著句子增長而增加,但該部分時間占比很小。
總結
以上是生活随笔為你收集整理的语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何关闭台式计算机休眠,win7台式机怎
- 下一篇: 华硕主板实现Wake on lan 网络