王荣刚:视频画质评定是个“大坑”
這是『下一代編解碼器』系列采訪的第8篇,LiveVideoStack采訪了北京大學信息工程學院教授王榮剛,暢聊了從熱門編解碼器的比較到4K、短視頻等應用場景,國產AVS2的演進,以及視頻畫質評定。
策劃 / LiveVideoStack
責編 / 包研
LiveVideoStack:請簡要介紹下自己,以及目前主要的工作方向,對哪些技術或領域感興趣?
王榮剛:很高興接受采訪,談談我們對視頻編碼技術的看法和我們團隊的一些相關工作。我叫王榮剛,目前是北京大學信息工程學院教授,所在實驗室為北京大學數字視頻編解碼技術國家工程實驗室深圳分室。自2002年讀博士開始一直從事視頻編碼和處理方面的科研工作,參與了AVS1,AVS+和AVS2系列標準的制定,主持制定了MPEG互聯網視頻編碼標準Internet Video Coding和IEEE虛擬現實視頻編碼標準Immersive Visual Content Coding草案,領導研發了AVS2視頻編解碼器uAVS2和HEVC/H.265編碼器u265。目前主要工作方向是下一代視頻編碼算法、虛擬現實視頻合成與高效傳輸。我感興趣的技術領域主要包括視頻編碼、圖像處理和虛擬現實等。
LiveVideoStack:什么樣的編解碼器是一個好的編解碼器?視頻質量、碼率、算法復雜度、對數據丟失或錯誤的魯棒性等。
王榮剛:這個問題比較復雜,視頻編解碼器的設計和應用場景密切相關,總體上說是在應用場景給定的約束條件下編碼質量越高越好,這些約束條件可以包括但不限于碼率要求、計算資源、編碼時延、隨機訪問頻率,信道條件等。
大家最熟知的視頻應用是廣播電視,這種場景的特點是視頻內容本身豐富多樣,場景切換頻繁;傳輸信道是單向的,有完善的容錯機制,傳輸速率相對穩定;用戶的終端一般是大屏幕,對視頻質量要求高;此外,編延時一般不超過3秒,隨機訪問點的間隔不超過1秒;為了滿足直播需求,要求編碼速度至少做到實時。廣電系統在編碼質量評估方面有比較成熟的方案,測試序列多樣,至少會包含復雜運動和頻繁場景切換,編碼質量用主觀評測打分,不是大家熟知的PSNR或SSIM,傳統的專業編碼器廠商做的都是這類廣播級編碼器。
近些年,互聯網視頻應用快速發展,互聯網視頻相對于廣播電視來說對編碼器的約束少一些,例如碼率不需要恒定,隨機訪問間隔可以到10秒甚至更長;受網絡帶寬成本限制,一般目標碼率偏低(在幾百Kbps到幾Mbps之間);網絡傳輸一般采用TCP協議,所以不需要考慮容錯。據我了解,國內多數互聯網公司以開源軟件(例如x264,x265)為基礎做些簡單定制,少數公司自主研發視頻編解碼器。
另外一類典型應用是視頻通信(例如視頻會議、視頻通話),這類應用對編解碼延時和容錯要求較高,場景相對簡單,場景切換較少,對編碼質量的要求沒有廣播電視高,編解碼器和網絡傳輸模塊耦合度較高,最好的選擇是自己定制編解碼器。
LiveVideoStack:當下對于編解碼器的研發,業界主要的研究方向是什么?其難點是什么?有沒有一些典型或您十分看好的應用場景?
王榮剛:目前從應用角度,正處于第二代編碼標準向第三代編碼標準過渡階段,所以研發熱點是基于第三代編碼標準的視頻編解碼器。說到第三代編碼標準,最具代表性的是由ISO/IEC MPEG和ITU-T VCEG聯合制定的HEVC/H.265標準。另外兩個挑戰者是由我國組織制定的AVS2國家標準和由谷歌牽頭制定的AV1(還未正式定稿)標準。關于這三個標準的詳細比較,我們專門寫過一篇文章,大家有興趣進一步了解可以關注我們實驗室的微信公眾號:“智媒之音”,文章的題目是《誰將引領新一代視頻編碼標準:HEVC、AVS2和AV1性能對比報告》。總體上這三個標準的編碼效率處在同一水平線上,比第二代標準提升了1倍左右。
開發第三代視頻編碼器的難點在于編碼效率和編碼復雜度的平衡。第三代標準比第二代標準編碼工具的復雜度增加了近一個數量級(10倍左右),而且主要目標應用是超高清視頻(4K/50fps/10bit)。以數據量和編碼工具復雜度推算,用第三代標準實時編碼4K視頻比用第二代標準實時編碼高清視頻對計算資源的需求提升了近200倍。所以在實際應用中,在給定計算資源約束下,很難把所有的編碼工具都用到最優,通常用并行計算結合快速編碼算法犧牲一定編碼效率換取編碼速度大幅提升。以目前互聯網公司最常用的x265 Medium Preset為例,它的編碼效率比HEVC/H.265參考軟件損失了近30%。當然這樣也為編碼優化留下了創新空間,我們團隊研發的uAVS2和u265是在這方面做的一些嘗試,在和x265 Medium Preset類似的編碼速度條件下,編碼效率比x265高出近20%。
我個人比較看好的場景之一是超高清視頻應用,目前的視頻服務質量距離人眼的視覺極限還有很大差距,無論是從分辨率、幀率、色域、動態范圍和視野范圍等維度。最近國家廣電總局發文推動基于AVS2標準的全4K視頻應用落地,相當于把4K影院體驗搬到家,對于家庭視頻服務體驗的提升是革命性的。全4K視頻的內涵是不低于4K分辨率、50fps幀率、10比特位深、10000倍以上的動態范圍和BT.2020色域范圍支持。即使用第三代標準壓縮,視頻碼率在不低于30Mbps的條件下,用戶才不易覺察相對于視頻源的質量失真。這個場景要落地對視頻編碼器的挑戰非常大,我們測試了AVS2參考軟件,如果要滿足全4K視頻實時編碼需求,至少要加速3萬倍! 在這么大加速比條件下,壓縮效率還要達到上一代標準的2倍,難度可想而知。我們團隊在這方面也做了一些探索,經過2年多努力研發的編碼內核uAVS2-4K在技術上滿足了全4K視頻實時編碼需求。伴隨著廣東、杭州、湖南等地方政府和央視的大力推動,相信新的一年會有一批全4K視頻服務落地。
另外一個我個人比較喜歡的應用場景是互聯網短視頻服務,這個場景推動的是信息消費方式變化。以我自己為例,近一年朋友圈看的越來越少,在今日頭條和快手等短視頻應用上停留的時間越來越長。文字看的越來越少、圖像和視頻看的越來越多。仔細想想,可能主要原因是看文字太累了,看圖像和短視頻更輕松。這類應用的特點內容數量龐大、粘性高,看似不起眼、不知不覺會消耗大量流量。從視頻編碼技術角度,這類應用對新技術的接受度最高,不像廣播電視需要復雜的上下游產業鏈和硬件支持。由于單個節目數據量小,終端只需要軟解碼,頭端和終端完全掌握在服務商手中,可以自己定制,能自編自解就好,甚至不需要標準。有新技術出來,很快可以落地,技術迭代迅速。我們去年幫助某大型互聯網公司定制了一套軟件編解碼器,針對圖像和短視頻應用場景可以節約50%以上的帶寬。
LiveVideoStack:大家已經開始研究H.266、AV1以及國產的AVS2,他有哪些特點?各自的優勢應用場景是什么?
王榮剛:準確的講,這三個標準不是一個時代的。關于AV1和AVS2我剛才已經說過,屬于第三代編碼標準。AVS2已經發布,AV1即將發布,大家在這兩個標準上做新的編碼工具沒有機會啦,主要還是做編碼工具優化。 H.266(MPEG官方的說法應該叫FVC: Future Video Coding)屬于第四代編碼標準,目前剛剛開始啟動技術提案的征集,計劃2020年定稿,目標是編碼效率比第三代標準再提升一倍。大家要做新編碼工具,FVC是適合的平臺。此外,據我了解,AVS標準工作組最近也啟動了AVS3標準的制定工作,目標性能和FVC類似,會議信息參見:http://www.avs.org.cn。
從應用場景上,HEVC, AVS2和AV1等第三代標準很清晰,主要面向超高清視頻應用。但FVC和AVS3等第四代還沒有那么清晰,基本上在上一代應用場景上進一步提升編碼效率,一點新變化是虛擬現實視頻對分辨率和幀率提出更高需求,例如做到8K、90fps以上,但這是不是會成為主流應用還需要時間驗證。
LiveVideoStack:在做編解碼器的開發或優化時,會考慮相關專利及其產生的費用成本嗎?
王榮剛:國家越來越重視知識產權保護,國內的公司業務越來越國際化,專利授權成本是使用視頻編碼標準研發編解碼器無法回避的一個問題。收專利費對促進企業投入核心技術研發、促進編碼技術進步有正面作用,但如果被濫用又會制約標準應用。國際標準在制定過程考慮的只是技術因素、不管授權成本,給“專利流氓”留下投機機會。目前在國際上討論比較熱的是HEVC/H.265的高額專利授權費用問題。已經有三個針對H.265/HEVC的專利池,除了老牌的MPEG LA外,還有HEVC Advance和Velos Media發起的專利池。此外,Technicolor公司獨立收取授權費用。MPEG LA和HEVC Advance公布了收費政策:MPEG LA的授權封頂年費從H.264的500萬美元提升到H.265的2500萬美元,HEVC Advance除了收設備廠商的封頂年費4000萬美元以外,還收取內容服務商500萬美元的封頂年費。Velos Media和Technicolor還遲遲未公布收費政策,讓HEVC專利授權費成了一個“無底洞“。國內一些公司在大力宣傳他們使用HEVC/H.265標準,能不能承受巨額專利費用,我挺替他們捏把汗的。
AV1是在這個背景下誕生的,目標是免專利費,目前主要的技術貢獻方是谷歌,國際上很多大公司例如微軟、亞馬遜、思科、英特爾和蘋果都加入了AV1陣營,也一定程度上反應了大家對HEVC/H.265收費政策的擔憂,當然AV1能否完全規避第三方技術專利還需要時間檢驗。
AVS專利收費政策走了一條中間路線:只對設備商收取少量專利費用,不對內容服務商收費。AVS1和AVS+采取“AVS專利池”統一許可模式,每個編解碼器只象征性得收取1元人民幣專利費,不對內容收費;在AVS工作組成立之初就制定了規則:凡是向AVS工作組提交技術和提案的單位都需要對其專利許可意向做出承諾,允許免費使用者加入“AVS專利池”。這一機制解決了國際標準制定時缺乏對技術許可政策的約束,造成專利授權成本失控的弊端。AVS2雖然暫未出臺正式的專利許可政策,但根據AVS專利池管理委員會出臺的《關于AVS2專利池許可的建議性規定》,AVS2的專利授權將沿用AVS1的統一許可模式,只對設備象征性收費,不對內容收費。特別的,對互聯網軟件服務免收專利費。
LiveVideoStack:普遍認為,硬件編解碼器的畫質沒有軟件編解碼器的效果好。有沒有一種能將硬件編解碼器的海量處理能力與高畫質結合起來的解決方案?
王榮剛:我覺得可能是應用場景不同給大家的錯覺。硬件編碼器一般的應用在消費類攝像頭上,這類設備的特點是量大、但要求很低的硬件成本,計算資源很有限,自然會限制硬件編碼器的編碼質量。軟件編碼器一般用在服務器端,有很強大的計算資源做后盾,自然編碼質量更高。
對于手機視頻這類應用場景,一個原因是智能手機通用處理能力越來越強,軟件編碼器可以擁有的計算能力超過了專用硬件,另一個原因是軟件編碼器更新比硬件容易,編碼技術迭代快。硬件廠商面對的一個現實是隨著終端通用計算能力增強,視頻處理越來越軟件化。當然相比于軟件編碼,硬件編碼還是有一定的功耗優勢。
對于專用視頻編碼器,一個可行方案做軟硬件協同設計。即將反復調用的計算復雜度高的模塊抽象出來,例如運動估計、變換、熵編碼等做成專有硬件,將編碼調度算法做成軟件。
LiveVideoStack:FPGA/ASIC做編解碼的前景怎么樣?
王榮剛:前景一直都很好呀,華為海思的編碼芯片賣了幾億片啦。
LiveVideoStack:設計一個硬件編解碼器,與設計軟件編解碼器有何不同?其挑戰包括哪些?
王榮剛:硬件編碼器的主要設計難度在于控制成本,在給定的資源約束下設計,自然要考慮一定程度的性能損失。軟件編碼器相對約束會少一些。二者的共同挑戰是如何在給定具體的應用場景約束條件下,提升編碼效率。
LiveVideoStack:相對于碼率、分辨率等硬指標,畫質評定,并不能完全參考客觀評測數據,主觀評定也很重要。包括PSNR、SSIM以及Netflix的VMAF等許多評定標準,在實際的應用場景中,該如何選擇最佳的畫質評定體系?
王榮剛:這是很好但很難的問題。說到底視頻是給人看的,所以視頻編碼的目標應該是同碼率條件下主觀質量最優。視頻質量評價是一個很大的研究方向,我對這方面的研究較少,談不了太深,簡單說一下我對這個方面的一點初淺認識。關于人工的主觀質量的度量, ITU-R規定了比較完善的測試規范(例如BT.1788),可以在網上查到。MPEG在做新標準基礎平臺選擇的時候,要求候選編碼器統一做主觀質量評測。如果希望編碼器自主優化主觀質量,就得找到用客觀指標自動度量主觀質量方法,這是個很難的問題。
SSIM,VMAF和weighted-PSNR以及它們的各種變種都是在這方面的一些嘗試,可惜到目前為止還沒有找到理想的評價指標,先后有很多研究人員掉進這個“坑”里,無法自拔。就我們之前的一點經驗看:在評價靜態圖像主觀質量失真方面,SSIM比PSNR有一些優勢,在視頻方面優勢不明顯。
目前作為視頻編碼器的用戶,評價編碼質量,靠譜的還是人工評分。我了解到的廣電系統對編碼器主觀評測大概是這樣做的,選擇或制作一些典型的和極限的測試序列(這點很關鍵),請主觀質量評測專家按照測試規范打主觀分,主觀質量評測專家都是千錘百煉啦,很容易看出視頻失真,據說能看出24fps和25fps的區別來。如果主觀分看不出明顯差別,有條件的再用PQA測一遍, PQA也是將多個指標綜合在一起給個主觀分。但專門做質量評價研究的專家認為PQA還很不完善。其他的應用場景我相信都有自己的一套主客觀評價體系,因為我們不直接做服務,就不班門弄斧啦。
LiveVideoStack:“利用人眼對背景不敏感的原理,降低背景部分的碼率,從而實現降低視頻碼率,但主觀上不容易覺察”是不是也在畫質評定的研究領域?
王榮剛:從你對問題的描述看,我的理解是利用人眼的視覺冗余特性,盡量節省帶寬。關于視覺冗余,JND(Just noticeable difference)有比較完善的理論,JND的閾值和視頻紋理、亮度和運動復雜度等內容特性相關。基本的假設是如果通過降低目標碼率,對編碼質量的損失能夠控制在JND閾值范圍內,人眼就覺察不出主觀質量下降。
LiveVideoStack:畫質評定的未來有哪些趨勢?
王榮剛:畫質評定是一個非常重要的研究主題,我個人認為大數據+人工智能會對給畫質評定的研究帶來新的思路,也許我們需要招個博士生做做這個有趣的題目啦。
LiveVideoStack:對于應屆生或從其他研發領域轉行學習編解碼、多媒體開發的技術人,有哪些建議?
王榮剛:由簡入繁、由淺入深,多動手實驗,對編碼工具知其所以然。我除了做科研外,很多精力是放在教學上。我講視頻編碼方向的課程有近一半的時間是講編碼原理,另一半時間講編碼標準:從最簡單的H.261講起,一直講到FVC,讓學生對編碼技術的發展脈絡有清晰的認識。此外,開源軟件會對視頻編碼技術學習有很大幫助,我向大家重點推薦的兩個視頻編碼方面的優秀開源軟件:FFMPEG和x264。
LiveVideoStack:能否推薦一些系統學習編解碼、多媒體開發的圖書、資料?
王榮剛:我推薦以下幾本書作為參考學習資料:
1)《視頻編解碼技術原理》,高文、趙德斌、馬思偉著,科學出版社,2010.11
2)《Video Codec Design》, Iain E. G. Richardson, John Wiley & Sons, Ltd, 2002
3)《Video Processing and Communications》, Y. Wang, J. Ostermann, Y. Zhang, Prentice-Hall, 2002.?
LiveVideoStack 2018年春季招聘
LiveVideoStack是專注在音視頻、多媒體開發的技術社區,通過傳播最新技術探索與應用實踐,幫助技術人員成長,解決企業應用場景中的技術難題。如果你有意為音視頻、多媒體開發領域發展做出貢獻,歡迎成為LiveVideoStack的一員。我們正在招募商務助理,高級編輯,策劃編輯,課程經理。
通過job@livevideostack.com聯系,或在LiveVideoStack公眾號回復『商務助理』,『高級編輯』,『策劃編輯』,『課程經理』了解詳情。
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的王荣刚:视频画质评定是个“大坑”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谁将引领新一代视频编码标准:HEVC、A
- 下一篇: 2017-2018:WebRTC标准演进