當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

微软语音合成技术升级编码器效果以假乱真

發布時間：2023/11/25 综合教程 33 生活家

生活随笔收集整理的這篇文章主要介紹了微软语音合成技术升级编码器效果以假乱真小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　微軟日前發布新一代深度神經網絡 HiFiNet 聲碼器，與微軟上一代語音技術相比，由 HiFiNet 聲碼器合成的神經網絡版聲音質量再創新高，主要體現在發音更準確、韻律更自然、高保真效果更完美，更受客戶青睞。自推出以來，被廣泛應用到有聲讀物、在線教育、車載語音助手等領域。

　　視頻地址：https://www.bilibili.com/video/BV1a44y1q7aZ?zw

　　HiFiNet 是微軟神經網絡版語音合成技術中最新的聲音編碼器，是決定音頻質量的關鍵因素。根據行業公認的、專業評估語音自然度的 MOS 測試結果顯示，由 HiFiNet 聲碼器合成的語音音質可與用于訓練的真人錄音樣本相媲美，并同時改善毛刺、噪音等音頻質量問題，輸出的音質具備更高保真度，更大程度還原真人錄音。

　　與微軟上一代聲碼器相比，微軟 HiFiNet 聲碼器合成的音質更高（見演示視頻第1、2 段聲音）。

　　語音質量的優劣會直接影響收聽者的感受，為提升用戶收聽的舒適度，在 Azure 語音合成系統中，神經網絡聲學模型基于深度學習網絡，使用真人錄音作為原始數據進行迭代訓練。首先，提取真人錄音的聲學特征。然后，利用真人錄音的聲學特征自動生成兩組音頻：一組真實聲波（原始錄音）和一組偽波（合成聲波）。最后，由鑒別器區分真實聲波和偽波。隨著訓練次數的增多，聲波生成器也會愈發“聰明”，直至生成鑒別器也無法區分的偽波，這意味著機器合成的聲音已經和原始錄音相差無幾，從而給用戶帶來更貼近自然的體驗。

　　由微軟 HiFiNet 聲碼器合成的音頻質量更接近真人原始錄音（見演示視頻第3、4 段聲音）

　　HiFiNet 聲碼器訓練示意圖

　　采樣率越高，聲音還原越真實。Azure 神經網絡版語音合成聲學模型默認每秒鐘采樣 24,000 次（24 千赫茲），為還原特殊場景中更為復雜、細微的聲音內容，HiFiNet 聲碼器每秒鐘采樣 48,000 次（48 千赫茲），滿足用戶對語音質量的嚴格要求，讓用戶盡享高清語音體驗。

　　音頻采樣頻率與保真度對比示意圖

　　除語音質量外，HiFiNet 合成速度較之其他模型也有顯著的提升，進一步提升了語音合成的實時率。據 RTF（Real Time Factor，實時率，用來測量語音合成速度的工具）測試結果顯示，HiFiNet 在 GPU 設備上運行的速度是第一代高性能聲碼器的 3 倍，在 CPU 設備上運行的速度是第一代高性能聲碼器的 2 倍。

　　目前，內置 HiFiNet 聲碼器的 Azure 認知服務神經網絡版語音合成服務已支持超過 70 多個國家和地區的語言，提供超過 170 個自然逼真的音色供開發者選擇。

　　欲了解有關 HiFiNet 及語音合成的更多內容，請點擊：關于 HiFiNet、關于語音合成試用版、更多資料以及示例代碼。

總結

以上是生活随笔為你收集整理的微软语音合成技术升级编码器效果以假乱真的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：业内首个规模应用！华为联手上汽大众发布全
下一篇：小鹏“回港”，召唤蔚来

综合教程

微软语音合成技术升级编码器 效果以假乱真

總結

微软语音合成技术升级编码器效果以假乱真