新的Google Lyra音频编解码器对实时视频流意味着什么?
正文字數:2602 ?閱讀時長:4分鐘
通過語言編碼中的碼率縮減趨勢,Lyra與Opus中的區別比較,Lyra的作用,XDN平臺上的高效語音編碼技術幾個方面探討新的Google Lyra音頻編解碼器對實時視頻流的意義。
文 /?RED5PRO
原文鏈接 /??https://www.red5pro.com/blog/what-does-the-new-google-lyra-audio-codec-mean-for-real-time-video-streaming/
對于那些對實時視頻通信感興趣的人來說,Google Duo工程團隊最近開發了一種音頻編解碼器,能夠以3kbps的速度傳輸合理的人類語音傳真,這可能會讓你大吃一驚。
但至少現在,這個被稱為Lyra的編解碼器看起來并沒有什么值得興奮的地方。它的發展遠比它在競爭激烈的社交會議應用領域,包括Duo、Facetime、WhatsApp和許多其他應用中可能很快產生的影響更有趣,更不用說Google Meet、Zoom和Skype等視頻會議環境了。?
Duo和大多數視頻通信應用一樣,依賴于WebRTC流媒體協議,Red5 Pro的體驗交付網絡(XDN)平臺上運行的多向、實時用例也是如此。Lyra是否有一天會對XDN應用有用,這取決于Google在此后的發展方向,以及這些努力與其他編碼技術的進步相比如何。
?語音編碼中的碼率縮減趨勢?
就目前尖端語音壓縮這個晦澀難懂的世界而言,3 kbps并不是那么稀奇。通過將算法處理限制在300hz到18khz之間的全部或部分聲波頻率,新舊語音編解碼器都比支持人類可聽到的全范圍聲音的音頻編解碼器具有更高的帶寬效率。例如,視頻流中使用最廣泛的音頻編解碼器——高級音頻編碼(AAC),通常覆蓋0至96 kHz的頻率范圍,通過使用低頻增強(LFE)、用于環繞聲和其他高級聲學中使用的低音箱饋源,可將頻率范圍擴展至120khz。
AAC被納入H.264/AVC標準,在使用48 kHz編碼采樣率的典型立體聲設置時消耗帶寬為96 kbps,盡管純音樂應用程序通常以更高的采樣率使用AAC,碼率一直延伸到512 kbps。相比之下,在WebRTC流媒體通信(包括Duo的)中使用最廣泛的下一代語音編解碼器Opus,僅以32 kbps的速度就能近乎完美地復制語音,并以低至6 kbps的碼率提供可行的語音通信。
對Opus以及G.722和G.711的支持是由WebRTC規范要求的,這意味著它們被主流瀏覽器支持。像Lyra這樣的編解碼器可以與WebRTC一起使用,只要它們有應用程序插件支持,例如Duo。
包括 Lyra 和 Opus 在內的許多語音編解碼器在帶寬受到嚴重限制下,可以通過將聲音復制限制在300hz到8khz甚至500hz到3khz的低頻范圍內。即使是聽起來很糟糕的語音,也足以傳達可理解的內容。這些頻率范圍可以將可理解語音使用的最小碼率降低到3 kbps以下水平。
能夠做到這一點的編碼器包括國防部的增強型混合激勵線性預測(eMELP)、3GPP的自適應多速率(AMR)以及Opus的開源前身Speex,這兩種編碼器都是由Xiph.Org開發的。此外,MPEG-4第3部分為語音編碼指定的編碼激發線性預測(CELP)和諧波矢量激發編碼(HVXC)算法,旨在支持分別以低至3.65 kbps和2 kbps的碼率傳輸可行的語音。
?比較Lyra與Opus?
在最近的一篇博客文章中,Lyra背后的團隊開始對Lyra的特別之處進行評估,他們聲稱,在3kbps的情況下,該編解碼器的性能優于其他所有在該碼率下運行的編解碼器,其質量也優于Opus在6kbps下運行的編解碼器。Google的軟件工程師Alejandro Luebs和Chrome產品經理Jamieson Brettle表示:“其他編解碼器的碼率與Lyra不相上下(Speex、MELP、AMR),但每一種編解碼器都會產生更多的干擾,并產生機器人般的聲音。”
但博客中提供的測試樣本只包括一個簡短的語音片段,由Lyra編碼為3 kbps,Opus編碼為6 kbps,Speex編碼為3 kbps。這些是在這里提到的編解碼器中的免版稅選項,這可能解釋了為什么這些測試樣本是唯一包含的。
這些測試報告的質量水平差異似乎很有意義。中立的觀眾以1-5分的標準產生的平均意見分(MOS)的平均值顯示,Lyra為3.5分,Opus為2.5分,Speex為1.7分。不過,如果如作者所堅持的那樣,額外的測試表明,8 kbps的Opus相當于3 kbps的Lyra,那么人們就會懷疑,這種碼率的節省是否足以讓Lyra發揮作用。
?Lyra的作用?
顯然,Duo的人認為Lyra值得他們花時間。他們指出,Lyra 3 kbps與Opus 8 kbps的等效值相當于減少了60%的消耗帶寬,他們斷言:"新興市場的數十億用戶可以使用一種高效的低碼率編解碼器,從而獲得比以往更高質量的音頻。"?
有道理。更好的音頻質量是一件好事; 如果一個新的編解碼器能夠以低得多的碼率提供另一個編解碼器的質量,那么所有的用戶,而不僅僅是那些在帶寬有限的市場的用戶,都會受益。
不過就目前而言,Lyra的真正影響很可能是對那些沒有帶寬支持視頻通信,但能夠擁有像樣的音頻聊天連接的人。事實上據報道,Google正在加速Lyra的實施,以滿足人們仍在使用2G連接或有線撥號連接的地區的需求。
對于使用3G連接的用戶來說,用Duo取代Opus不可能帶來更多的消費者,因為3G對240p視頻的支持完全在該標準的吞吐量范圍內,無論是使用H.264時的350 kbps,還是使用Duo使用的開源視頻編解碼器VP9時的200 kbps。通過使用Lyra以3 kbps的最低音頻質量與Opus以8 kbps的質量提供同樣的音頻質量來節省5 kbps,這對于3G用戶是否可以參與視頻聊天并不具有決定性意義。
Google團隊提出,Lyra與AV1結合使用,與VP9相比,編碼效率提高了約40%,可以讓 "讓用戶通過56kbps的撥號調制解調器連接到互聯網 "實現視頻聊天。但AV1/Lyra組合對于使用2G手機的人來說是行不通的,因為這類手機無法支持AV1所需的處理。?
事實上,Google去年表示實施的AV1的使用將僅限于電腦和有足夠處理能力處理AV1的5G智能手機。在那些高帶寬環境下,Lyra是否會起作用還有待觀察。?
?XDN平臺上的高效語音編碼技術?
這些考慮對于那些希望通過XDN基礎設施提供的應用程序來提高音頻質量的提供商來說是無關緊要的。他們可以通過簡單地使用Opus作為瀏覽器支持的WebRTC編解碼器來實現這一點,并顯著節省帶寬。?
Lyra是否會對在XDN基礎架構上運行的應用程序產生影響,取決于Google如何利用它提出的創新使Lyra成為可能。Duo開發者表示,他們正在開始研究如何利用這些技術實現低碼率的通用音頻編解碼器(例如,音樂和其他非語音應用)。
這些努力以及其他類似的努力都很值得關注。Lyra是一種新的參數編解碼器,也就是說,這種編解碼器從原始語音中提取幾個關鍵參數,在解碼過程中重新生成信號,而不是像Opus那樣直接編碼波形。Lyra和其他新的參數編解碼器使用了所謂的生成建模,通過在解碼過程中產生更多的信號來創造更豐富的參數調色板。
如何做到這一點,同時減少而不是增加碼數,這就涉及到一系列令人眼花繚亂的技術,涉及到創建所謂的log mel譜圖,這些譜圖是對數的數字分配,從數以萬計的錄制的語音采樣中的聲波,借助機器學習(ML)進行解析,以復制特定的語音軌道。
Google的團隊想出了一種方法來改善通過這些方法重新創建的語音的真實性。關于這些新方法如何工作的細節,以及它們對機器學習和人工智能在信號處理和其他流媒體相關功能的其他方面的影響的說明,將在即將發布的博客中進行更深入的探討。
講師招募?LiveVideoStackCon 2021 北京站
LiveVideoStackCon 2021 北京站(9月3-4日)正在面向社會公開招募講師,歡迎通過?speaker@livevideostack.com?提交個人及議題資料,無論你的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的,我們將會在24小時內給予反饋。
總結
以上是生活随笔為你收集整理的新的Google Lyra音频编解码器对实时视频流意味着什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊 | 197
- 下一篇: LiveVideoStack 2021招