喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
Photo by?Nicholas Githiri?from?Pexels
現如今,隨著TTS技術不斷發展,用戶對于語音合成的音質質量、流暢度等擁有更高追求。語音合成中的風格控制、音色轉換、歌聲合成等技術是目前業界的難點和共同追求的方向。本次采訪邀請到了喜馬拉雅的音頻算法工程師賀雯迪,她將從語音合成領域、TTS技術的發展狀況和應用場景等方向與大家一同探討。
文 / 賀雯迪
策劃 / LiveVideoStack
LiveVideoStack:賀雯迪,你好,感謝你接受LiveVideoStack的采訪,作為本次大會AI與多媒體內容生產創作專場的講師,請先和大家介紹一下你目前負責的工作方向和演講內容。
賀雯迪:我目前在喜馬拉雅擔任音頻算法工程師,工作研發方向是TTS前端模塊的搭建和優化(文本規整化、分詞、多音字、韻律預測等),后端算法(基于深度生成模型的說話人風格轉換,情感控制,音色克隆、神經聲碼器的優化等方向)。演講的方向是基于現在語音合成領域中比較具有發展前瞻性和討論性的:語音合成中風格遷移、情感合成、音色克隆等衍生方向上技術和應用方面的探討。
LiveVideoStack:在一般情況下TTS并不會受到廣泛關注,但實際上,TTS對于整個AI語音交互的體驗觸發起到了決定性的作用,也直接影響到AI在用戶心中的“三次元化”形象。從你的角度來看,TTS技術目前的發展狀況如何?攻堅方向主要有哪些?
賀雯迪:目前行業內TTS技術在保持了比較好的MOS值情況下,應該大部分基于深度學習框架,沿用了端到端聲學模型 + 神經聲碼器的結構來支撐線上業務或者開放平臺。TTS攻堅的方向依然在于模型結構的優化、高質量數據集的獲取、精準的評測機制等,工程上還同時需要考慮算力、合成的實時性、數據的吞吐量,機器資源占比等時間和空間成本問題。如何讓語音合成的各個衍生模塊(跨語言、跨風格、多情感、跨媒體、低資源)從研究走向落地,做成規模化產品提供穩定的效果和服務給用戶使用,也是我們目前所正在解決的事情。
LiveVideoStack:樣本的獲取在機器學習領域都是很大的問題,更有情感表現力和精準韻律的聲音,一定是通過龐大精準的語料庫直接拼接產生的。喜馬拉雅是如何解決樣本問題的呢?
賀雯迪:喜馬拉雅有自己的主播團隊,我們會定時定期篩選所需要風格、音色的主播來進行數據集錄制,現成的語料庫在主站數據及主播獲得授權的情況下可直接用我們自研的算法進行識別、清洗、去噪來進行使用。另外我們也有自己的標注團隊,目前標注的層級在語法分詞、韻律分詞、多音字、音素等。
LiveVideoStack:TTS即“從文本到語音”,算法通過系統對輸入的文本進行分析,在這過程中如何對段落中的多音字、詞性、韻律進行區分,獲得合成語音的基本單元信息?
賀雯迪:在端到端的語音合成中,由于自然語言本身是開放的,語言語義信息也非常重要。前端部分涉及NLP領域,會對輸入的文本進行處理,處理的流程大致是:對文本進行非標準詞的正則、對正則文本進行韻律分詞預測、根據分詞結果將文本轉音素,解決拼音中多音字問題(多音字用模型來判斷它的讀音,目前比如基于條件隨機場、注意力機制的端到端模型、Bert等,都能在不同程度上解決這個問題,而現有的文本轉音素開源工具里,大部分多音字的錯誤率并不是特別高,我們可以針對于幾個常見的易錯多音字來進行優化)。
LiveVideoStack:如果要實現明星甚至普通人的聲音都可以在終端設備中體現,這在之前需要大量語料的錄入和拼接。如何讓機器低成本地學習用戶的聲音,也就是你在演講中將會提到的音色克隆,這項語音合成技術是如何做到通過少量的語料模仿不同聲音的呢?
賀雯迪:少樣本以至于單樣本、零樣本學習在深度學習領域都是很重要的。初期fine-tune在語音合成中的運用,用于在一個訓練好的多說話人模型上進行小樣本訓練,由于之前的模型已經學習到了多說話人的聲學特征,只需要在模型參數上輸入新的小數據集就能讓現有的模型參數進行遷移學習和精調,已適用于現有的新數據集。比如,如果我們提前有一個20個說話人的多說話人模型,這其中訓練數據里每一位說話人的樣本可能需要幾個小時時長,新的說話人只需要估計10分鐘左右時長的音頻數據,就能通過短時間訓練,做到音色克隆。
現在,大體量的數據集我們可以更輕易地收集音色的多樣性,比如開源作者@CorentinJ 在他的repo:Real-Time-VC中就嘗試過,用一個能生成代表說話人音色向量的編碼器,以及計算一種新增加的損失函數,將編碼器、合成器+聲碼器的部分分開訓練,訓練數據集量級至少大于300小時、含有的說話人最好在1000個以上。通過訓練好的聲學模型,用戶只需要輸入一條幾秒鐘的個人語音,就能克隆出該用戶的聲音(通俗來說可以理解為embedded speaker里與該用戶最相似的聲音,最大程度去還原)。當然還有更多的少樣本、零樣本音色克隆的研究趨勢,其發展和落地依然處于行業內不斷探索的過程。
LiveVideoStack:從大環境來看,TTS的應用場景非常豐富,手機、音響等智能設備在目前是比較被普及應用的場景,除此之外還有哪些比較小范圍應用TTS的應用場景,在未來還將有哪些場景將會用到TTS?
賀雯迪:TTS的現有的應用場景主要分為人機交互、語音播報。前者包括智能客服、智能家居等;語音播報的場景更加廣泛,比如殘障人士設備、公共交通設備、GPS 導航、有聲小說、音視頻新聞播報等已經開始普及了。并且隨著8090后群體中二次元文化、網絡文化等發展,游戲、虛擬偶像、虛擬主播、音色克隆等更多個性化場景也將運用到語音合成技術。其實TTS的場景應用應該非常具有想象力,對于人工智能來說,語音語義相當于人工智能的語言表達,在不違背道德風險,合理合法的前提下,它應該像說話、發聲一樣日常適用于我們的生活,提供更多種可能的表達。
點擊【閱讀原文】或掃描圖中二維碼,了解更多講師及話題信息
總結
以上是生活随笔為你收集整理的喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 万物皆可“小程序”——迟到的iOS 14
- 下一篇: Game as a Service ——