當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音合成（speech synthesis）方向十一：聊一聊增量式语音合成（iTTS）进化史

發布時間：2023/12/20 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了语音合成（speech synthesis）方向十一：聊一聊增量式语音合成（iTTS）进化史小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：工作以來主要從事TTS，VC以及ASR等等相關工作，平時看些文章做些筆記。文章中難免存在錯誤的地方，還望大家海涵。平時搜集一些資料，方便查閱學習：TTS 論文列表 http://yqli.tech/page/tts_paper.html TTS 開源數據 http://yqli.tech/page/data.html。如轉載，請標明出處。歡迎關注微信公眾號：低調奮進

?（本文稍長，希望大家看完，而不是收藏之后等以后慢慢看）

大家平時對Incremental TTS（iTTS)關注較少，可能會問iTTS是如何工作？完成那些工作？對于iTTS的介紹屈指可數，今年出來的幾篇語音合成的survey（可以參考語音合成論文優選：語音合成綜述（2021）https://mp.weixin.qq.com/s/m6juWxML0E_e83fvs4k0Aw）也沒有相關主題的總結，因此我這里就嘮一嘮該方向的研究。iTTS主要是根據部分語境（當前word以及前邊已經觀察到的word序列）來合成音頻，其研究沒有被重視的原因主要其語音質量無法與整句合成效果好，但其latency理論上是純正的streaming。再進入主題之前，我先把幾個術語捋一捋。ASR很多研究涉及streaming，該streaming對應本文的increamental，因此我們稱增量式tts為streaming?TTS或者increamental TTS。另外，real-time語音合成系統主要特點就是latency小，因此很多文章和研究人員習慣把具備局部streaming特點的TTS也稱為streaming TTS（主要latency較小），這里我們沒必要較真（有位朋友曾跟我探討過streaming TTS和real-time TTS區別，其實real-time TTS是包括streaming TTS）。接下來我們進入主題。

本文主要講解以下的幾篇文章

segment-level的iTTS

1 Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework?

2019.09

https://ahcweb01.naist.jp/papers/conference/2019/201909_SSW_tomoya-ya_1/201909_SSW_tomoya-ya_1.paper.pdf

使用future?context的探索研究

2 What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS

2020.09.04

https://arxiv.org/pdf/2009.02035.pdf

3?Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

2021.02.15

https://arxiv.org/pdf/2102.09914.pdf

4?Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model

2021.04.14

https://arxiv.org/pdf/2012.12612.pdf

5 Low-Latency Incremental Text-to-Speech?Synthesis with Distilled Context Prediction Network

2021.09.22

https://arxiv.org/pdf/2109.10724.pdf

局部streaming，但具備更多的落地場景

6?High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

interspeech 2020

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2464.pdf

??第一篇Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework?

這篇文章是最早在基于神經網絡的TTS上進行iTTS的研究，其主要在tacotron(圖1）架構上進行english和japanese的試驗。該iTTS如2所示進行片段式segment的合成，即逐塊chunk模式合成然后再進行拼接，結果為圖5圖6所示。

第二篇What the Future Brings:?Investigating the Impact of Lookahead for?Incremental Neural TTS

該篇文章主要探索iTTS需要具備多長的future context才能提高語音合成質量。本文是在tacotron系統上進行的實驗，encoder和decoder都要做相應的處理。encoder的處理如table1所示，其中n代表一句話中該word的位置，k是向后看幾步。decoder部分的如圖1所示，合成增量的每部分音頻，然后進行拼接。

先看一下encoder部分增量k對每個word的影響，其中對比的為原始tacotron系統full,就是處理整個句子。可以看出隨著k增大，其結果趨近于原始full的結果。圖3的結果亦是如此，其中選擇k=2的情況，可以較好的實現iTTS。table2給出了各種參數對iTTS的效果影響。table4顯示合成音頻的質量受到k的大小影響。

?第三篇Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

上篇文章主要研究當前word受到future?context的影響大小。本文使用語言模型GPT2來預測該語境，來優化iTTS的自然度。詳細的設計為圖1所示，使用GPT2預測下一個詞，然后使用聲學模型和聲碼器合成語音。其中table1展示了集中對比系統，Ground truth為完整句子， Unkonwn k=0，不做任何處理，Ground Truth k=1，完整句子中獲取下一個詞，GPT2 k=1使用gpt2預測下一個， random是隨機預測一下詞。

該方案的結果

圖2展示了時長預測，可以看出GPT2的結果是弱于全句子和GT k=1，但好于k=0和random。tabel2和table3都展示一致的結果。

第四篇Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model

本文相對上一篇主要添加如圖1虛線所示添加textual embedding network模塊，該模塊通過observed segment和預測的future segment來生成context embedding信息。

該方案的實驗圖table 1所示bicontext把MOS和CER,WER提高很多，不斷接近full-sentence。

第五篇?Low-Latency Incremental Text-to-Speech?Synthesis with Distilled Context Prediction Network

以上幾篇文章引入語言模型GPT2會增加時間開銷，因此本文在第四篇文章基礎上通過知識蒸餾方法對語言模型gpt2和contextual embedding network進行蒸餾，其student只要使用observer segment和current segment就預測contextual embedding，從而提高推理速度。

該方案的試驗結果如圖table 1和圖4所示，相比第四篇文章，推理速度提高10倍。

第六篇?High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

為了減小latency，本文提出了聲學模型decoder和聲碼器streaming的合成系統，無論句子多長，都可以近乎常量時間返回首段音頻。本文是在taotron+lpcnet系統上實現，具體的實現為圖1所示。在tacotron的decoder的部分添加一個buffer,當buffer滿了之后就可以進行post-net網絡，（需要注意的是buffer大小要大于post-net的視野長度），同理輸出的幀數大于lpcnet的encoder的感受視野就可以進行音頻的合成。這樣的模式可以使tacotron和lpcnet同時進行合成，而不需要等待tacotron合成整個句子的聲學特征后才進行lpcnet的合成

該方案試驗結果。首先table1顯示r的影響，當r增加可以減少latency，但超過7以后就會急劇下降，這是因為每個step不能涵蓋那么多幀的信息，而r=2的效果沒有3號，可能因為還沒有收斂所致。table2對比了集中常用的語音合成系統，由結果可知，本文的流模式latency幾乎最低，逼近常量時間，緩慢上升是由于tacotron的encoder部分隨著句子增長而增加，但該部分時間占比很小。

總結

以上是生活随笔為你收集整理的语音合成（speech synthesis）方向十一：聊一聊增量式语音合成（iTTS）进化史的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何关闭台式计算机休眠,win7台式机怎
下一篇：华硕主板实现Wake on lan 网络