AV1:为互联网提供开放、免费的视频编解码工具
從學術研究到進入工業界,Zoe Liu一直在算法和音視頻領域,目前在谷歌編解碼團隊為編解碼器AV1做開發支持。Zoe暢談了評定編解碼器的標準,以及AV1的最新進度。本文是『下一代編碼器』系列采訪之一,歡迎自薦或推薦技術人加入『下一代編碼器』系列采訪,請郵件editors@livevideostack.com。
文 / Ant
LiveVideoStack:請簡要介紹下自己,以及目前主要的工作方向,對哪些技術或領域感興趣?10多年來一直做多媒體相關的研發,是巧合嗎,還是興趣使然?
Zoe Liu:我目前在谷歌(Google)做軟件工程師,主要從事視頻編碼與視頻通信算法設計與實現。曾在美國貝爾實驗室(Bell Labs), 諾基亞研究中心(Nokia Research Center), 以及惠普實驗室(HP Labs)等處從事理論算法研究,后轉入工業屆,參與了如下視頻通話產品的設計與推出:蘋果(Apple)的FaceTime,談客 (TangoMe)Video Calls,以及 谷歌眼鏡(Google Glass)專屬Hangouts Video Calls。目前在谷歌從事下一代開源免版權費(Open Source, Royalty Free)的AV1視頻編碼的標準制作。從學校到現在一直從事視屏編碼跟視頻通信方面的工作,有機緣巧合,也有興趣使然。
LiveVideoStack:什么樣的編解碼器是一個好的編解碼器?視頻質量、碼率、算法復雜度、對數據丟失或錯誤的魯棒性等。
Zoe Liu:視頻編解碼發展的根本還是在于視頻壓縮效率的不斷提高,也就是在一定視頻質量下追求最低可能的碼率,亦或在一定視頻碼率下追求最佳視頻質量。視頻質量的評測,傳統上還是使用峰值信噪比,盡管這一指標在很多情形下與人眼主觀的評測結果不能夠一致的吻合。視頻質量評測本身就是一個非常活躍的研究領域。
視頻產品不同的應用場景,決定了視頻編解碼器的評估策略也不盡相同。在視頻廣播,視頻直播等領域,解碼器的解碼效率和性能是關鍵環節之一。在視頻通話,視頻會議等應用場景,編碼器的效率跟性能同樣關鍵。目前視頻碼流都有關鍵幀的周期性嵌入。關鍵幀均采用幀內預測,其編解碼是與其他幀獨立,因此可以用于同步幀,有效的恢復糾錯,但通常也會消耗大量的碼率。除關鍵幀的采用之外,另一比較有效的容錯策略是利用數據鏈路層的ACK/NACK結合視頻編碼的長距離參考幀,一旦網絡出現錯誤(由于網絡擁塞造成的包丟失),可利用確認成功傳送的參考幀做幀間預測產生同步幀,編碼效率會顯著提升。但ACK/NACK的發送與接收取決于網絡的往返延遲時間等狀態參數。其他容錯傳輸,比如向前糾錯編碼(FEC),在網絡丟包概率小于一定限度的情形下十分有效,丟包嚴重時糾錯性能則大大下降。編解碼器的編碼效率與其容錯能力通常是相互矛盾的。編碼效率的算法大多得益于多種預測與基于上下文(context-based)的編碼工具的采用,而這些工具對于網絡錯誤非常敏感。所以任何一款編解碼器的研制,都會以犧牲一定的編碼效率來增強其容錯能力。
LiveVideoStack:你在LiveVideoStackCon上的分享AOM聯盟以及AV1編解碼器,能否在這里review一下?
Zoe Liu:首先介紹了我們在谷歌的視頻編碼團隊。我們團隊隸屬于Chrome Media部門。Chrome Media的工作使命在于為互聯網上的多媒體應用提供開放和免費的多媒體壓縮技術。視頻方面,我們的產品主要有VP8,VP9,以及AV1,其中AV1是目前和開放媒體聯盟(AOM)的合作伙伴共同開發的。除視頻之外,我們的產品還包括靜態圖像壓縮標準WebP,音頻編碼器Opus,以及專門為3D圖形數據研發的Draco編碼軟件。
多樣化的視頻應用在近幾年呈現井噴的趨勢,目前視頻應用提供者的背景也是千差萬別,在考慮壓縮軟件時,對成本和需求的考量也變得多樣化了,這就是為什么壓縮行業在單一的國際標準之外也需要產品的多元化,讓用戶來作出適合自己的選擇。
谷歌一直以來都在堅持一個理念:所有奠基互聯網應用的技術,應該是開放的、免費的,比如Chrome瀏覽器,Android系統就是這一理念下的實例。先進的開源、免費視頻編解碼技術,可以帶來視頻相關領域最大可能的發展,尤其為小型內容所有者以及相應企業在互聯網激烈的競爭年代,提供更多平等的機會,與運營的大型公司平等抗衡,從而促進更加豐富、多樣化的互聯網絡市場的發展。
2013年,VP9的誕生,在壓縮效率上達到與H264相比節約50%的碼率性能,除了基本的8比特、420格式外,同時支持更高像素精度和多種顏色空間采樣格式。到現在為止,數十億的終端設備支持VP9;Chrome,火狐,Edge,以及Opera等瀏覽器均支持VP9;在手機上,4.4或更高版本的安卓系統也支持VP9。在電視、游戲機、數字電視棒等家庭娛樂設備上VP9也有非常廣泛的支持。
VP9最初的客戶是谷歌的視頻分享網站YouTube。從2013年到現在,除了大幅降低帶寬成本外,VP9給YouTube的業務創造了更多的機會。在投入使用的第一年,基于VP9壓縮的視頻在YouTube上播放時長即達到25億小時。目前YouTube上VP9視頻用戶,日均觀看達到20多億次。采用VP9壓縮,使得播放起始延遲時間(首屏耗時)大大降低(平均降低15%),與此同時,緩沖效率大大提高。在成熟的在線視頻消費市場,VP9使得YouTube市場占有率提高了25%,在尚未成熟的市場則提高了100%。特別是在受制于帶寬限制、尚未成熟的市場中,YouTube高清視頻在VP9成為主導編解碼后,播放數量提升高達25%。
2015年,谷歌推進了開放媒體聯盟(AOM)的創立,致力于開發開源、免費版權的新一代媒體格式,以及相應的編解碼技術。目前,AOM董事會成員已經涵蓋了Adobe,Amazon,AMD,Broadcom,Cisco,Facebook,Google,Hulu,IBM,Intel,Microsoft,Mozilla,nVIDIA,Netflix,nVidia等33家以上的技術巨頭。
LiveVideoStack:對于應屆生或從其他研發領域轉行學習編解碼、多媒體開發的技術人,有哪些建議?能否推薦一些系統學習編解碼、多媒體開發的圖書、資料?
Zoe Liu:目前流行編解碼技術的基本框架是幀間運動矢量預測+二維變換+熵編碼。當然人工智能的發展會不可避免的更新或者顛覆這一框架。了解編解碼技術,國內在微博、微信以及知乎平臺上都有很好的總結性文章,深入淺出,比閱讀書籍會上手快許多。如果需要進一步了解編解碼的各個模塊與技術細節,最好具備圖像處理、信號處理、信息理論的一些基本知識。建議可以閱讀IEEE期刊上的一些關于H264/HEVC/VP9的總結性論文。目前視頻編碼開源代碼很多,可以下載試運行,從而對編解碼有更加直觀的概念。
關于受訪者
谷歌(Google)軟件工程師,主要致力于視頻編碼與視頻通信的算法設計與實現。曾在美國貝爾實驗室(Bell Labs), 諾基亞研究中心(Nokia Research Center), 以及惠普實驗室(HP Labs)等處從事理論算法研究,后轉入工業屆,尤其參與了如下視頻通話產品的設計與推出:蘋果(Apple)的FaceTime,談客 (TangoMe)Video Calls,以及 谷歌眼鏡(Google Glass)專屬Hangouts Video Calls。目前在谷歌從事下一代開源無版權費(Open Source, Royalty Free)的AV1視頻編碼的標準制作。
Zoe Liu 谷歌(Google)軟件工程師
本文是『下一代編碼器』系列采訪的第五篇,該系列采訪將圍繞視頻編解碼器領域的工業界與學術界的工程師,探討編解碼器的演進與應用。歡迎自薦或推薦技術人加入『下一代編碼器』系列采訪,請郵editors@livevideostack.com
LiveVideoStack招募社區編輯
LiveVideoStack是專注在音視頻、多媒體開發的技術社區,通過傳播最新技術探索與應用實踐,幫助技術人員成長,解決企業應用場景中的技術難題。如果你有意為音視頻、多媒體開發領域發展做出貢獻,歡迎成為LiveVideoStack社區編輯的一員。你可以翻譯、投稿、采訪、提供內容線索等。
通過contribute@livevideostack.com聯系,或在LiveVideoStack公眾號回復『社區編輯』了解詳情。
總結
以上是生活随笔為你收集整理的AV1:为互联网提供开放、免费的视频编解码工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python爬虫day1.2—Pytho
- 下一篇: rabbitmq php 学习