宋利:许多高手并未参加MSU评测
眾多本土和華人公司積極的參與MSU視頻編碼大賽,上海交通大學教授宋利接受LiveVideoStack采訪時表示,華人在整個編解碼領域有舉足輕重的影響力。但也要看到,許多國外高手并未參與MSU評測,不能盲目樂觀。本文是解讀MSU評測的第二篇。
文 / 宋利
策劃 / LiveVideoStack
LiveVideoStack:宋利你好,這是您第二次接受LiveVideoStack的采訪,能否聊聊最近關注的技術或話題?
宋利:感謝再次采訪。和大家分享一些近期關注的事情:
(1)視頻編碼方面,AOM陣營AV1正式發布,MPEG陣營VVC(未來的H.266)正式啟動,業內又掀起Codec之戰的討論。總體來看,互聯網流媒體陣營看好AV1,積極跟進布局。之前普遍詬病的AV1編碼太慢的問題,經過AV1團隊近期努力優化,已經顯著提升;盡管依舊是VP9的50倍以上,預計到年底還能翻一倍。編碼芯片領域的知名公司,索喜科技(socionext)近期發布了業內首款AV1硬編碼器,在9月份的IBC上做了demo。VVC方面,參考軟件VTM1.0基準確定,RD平均增益為8%,編碼復雜度控制在HM(HEVC參考軟件)2倍左右;專門設置了增強工具集配置——BMS,相關候選算法需通過打擂和評估后,才能加入新的VTM。目前配置上,RD增益~23%,編碼復雜度是HM的9倍左右。復雜度的控制是后續新工具引入時面臨的主要挑戰,例如基于深度學習的后處理濾波、運動補償參考幀技術,盡管性能提升可觀,但復雜度也顯著增加,能否最終進入標準尚需時日。近期另外一個大事是AVS2;隨著央視超高清4K頻道的開播,AVS2編解碼、轉碼成為市場關注熱點。
(2)視頻傳輸方面,一個是流媒體陣營,DASH+CMAF/fMP4組合開始逐步落地,有望替換HLS+TS/MP4經典組合,主要賣點是降低延遲,節省CDN存儲/帶寬。另外一個陣營是RTC,代表是WebRTC,除了挑戰RTMP推流老大的地位外,在雙向互動類場景中(抓娃娃,視頻會議,在線教育和遠程醫療等)漸入佳境,廣受業內追捧。
(3)體驗評價方面,不管是運營商視頻還是互聯網視頻服務商,比較多地提“服務體驗”。我參與較多的“視頻體驗聯盟”致力于QoE評價技術標準(目前成員超過60家,包括信通院、廣科院、三大運營商、三大流媒體服務商等)。ITU,VSF等標準或聯盟近年也推出這方面標準或規范,如用于視頻流媒體評測的ITU-T P.1203。近期論壇上,也經常能聽到相關主題報告,本年度LiveVideoStackCon大會上有多個相關技術分享,大家關注一下。
LiveVideoStack:作為面向通用場景的視頻編碼器的評測,您可以給MSU打多少分?還有哪些需要改進的地方?
宋利:MSU在編碼器評測方面頗有年頭,從H264到近年的HEVC,有較高公信力,在促進編碼器性能提升方面有標桿示范作用。首先,評測針對”實際“編碼器,包括商業公司產品和開源社區最佳代表(如x264,x265),目前以intel E5為軟編碼器實施平臺,也是對齊市場上多數商用編碼器的;當然也完全把基于GPU和FPGA或芯片的方案排除了。此外,測試序列較為豐富,種類覆蓋不同運動、紋理特性的視頻,能夠較好地探測到編碼器面對”通用自然“場景的表現。在失真指標上,和標準研究以PSNR為主不同,MSU評測以SSIM為主,PSNR為輔,今年也加入VMAF為額外參照。他們關注編碼器在目標碼率下的重建圖像的視覺質量。實用編碼器中碼率控制是關鍵,這個留給各家較大的發揮余地。如果按照百分制來計的化,我可以給85分。
可以改進的方面:
(1)評測的維度可以更細。比如類似x265或者商用編碼器的配置選項,把profile做成典型場景下的配置(fast/low latency, medium/default, slow/offline,...),這樣更能探測出編碼器在不同“編碼速度-壓縮能力“區間的表現,給優化編碼更大的發揮空間。
(2)在客觀評測基礎上,加入一定主觀verification。大規模主觀測試不大現實,可以引入一定量的主觀評測打分到最后分數。引入考慮視頻時域特性(比如前后幀質量抖動)的metric,如vqeg的VQM,看看編碼器在這方面的表現。
(3)測試序列選擇上,根據比賽的結果,更換部分“好編“的序列;目前主要是PGC內容,后面可以考慮引入一些UGC內容(比如手機高清源)。
LiveVideoStack:如何正確的解讀或使用MSU的報告?他的價值體現在哪里?
宋利:MSU報告的價值直接體現在評價方法和結果排名。完整報告要花錢購買,結果更詳細,包括編碼器在每個序列上表現。報告對實施細節并沒有完整詳細的說明,也未對結果做過多評述,這個可以理解。關注這個報告的群體大體有3類:第一類是公司產品/市場人員,他們關注結果排名。結果剛出來的時候,一波PR帖子大家也都看到了。第二類是Codec選型人員。不妨參考這個結果,把這些表現不錯的廠商加入你們的競標候選名單。當然只是個參考,需要結合各自應用場景再做評測的。第三類是Codec開發人員。大家更想了解背后的優化技術、策略、邊界,knowhow。但這個很難get到,搞比賽往往是亂拳打死老師傅,實際上前面兩名分數接近。從統計上看,可以認為無顯著性差異,要看具體序列上的表現(比如某個特定的序列表現不好或者表現突出可能把分數拉下來或拉高)。完整報告還是有信息的,能了解到自家和友商編碼器的細致表現;那份free報告嘛,MSU的廣告價值更大。:)
LiveVideoStack:巧合的是,本次MSU視頻編碼評測中,大部分來自國內團隊或華人的公司,如何看待這一現象?
宋利:首先恭喜中國軍團!記得社區里面有人說過,不管是華為系,騰訊系還是金山系,都是Chinese系。華人在多媒體領域特別視頻編碼領域確實表現搶眼,MPEG社區也是華人為主,學術領域也是華人天下。也反應出視頻領域這幾年確實發展迅速,中國的ICT大廠們投入研發重兵。不過硬幣的另外一面也需要引起思考,從技術角度看,是否說明華人在Codec優化方面具有絕對實力呢?我個人持謹慎態度,做編碼器的朋友們都了解,法國、俄羅斯(以及日韓)在這個領域其實高手很多,一些老牌的編碼器廠商并沒有來打擂,具體原因不大清楚。也許正在練內功,專心打磨產品,無暇顧及。我們華人向來對比賽和排名比較關注,文化原因,從小到大都如此。搞得多了,老外都不好意思來了,比如CV領域的ImageNet,老外基本絕跡了。:)
LiveVideoStack:除了MSU的評測以外,還有哪些渠道或方法獲得中立客觀的視頻Codec評測對比?
宋利:專門做Codec評測的機構還真不多,所以MSU才獨領風騷。其實的理想測試應該大樣本、雙盲、隨機、主觀MOS打分。對于Codec測試來說,用主觀打分的代價太大,MSU用SSIM也不得已。但SSIM也只能說相比其他metric,平均表現更接近MOS,但在具體序列上差異較大。在編碼這個特定任務上,規模比較大的主觀測試是MPEG標準收官階段的評測和2010年VQEG組織的編碼/metric評測。這些評測中,多家機構參與并做數據交叉檢驗,按照嚴格標準建議流程進行結果匯總和分析。近年來大規模的視頻編碼主觀評測,只有Netflix搞過,并據此輸出一個開源工具——VMAF時候做了。這也VMAF近期受到編碼界關注的原因,因為數據比較大(過萬個主觀評分數據)。對VMAF的表現,大家也有爭議,這次MSU沒有選為主要依據可能也有考慮。
如果MSU大方一點,能公開測試數據(估計不可能),應該有不少機構愿意做一個cross check。或者按照他們同樣的方式在獨立實驗室repeat一下,這個也比較難,估計大家沒動力。BTW,我們華人軍團可以考慮自己搞個編碼器算法擂臺,定義一套更為開放透明的評測方法,來和MSU這個競爭一下。
總結
以上是生活随笔為你收集整理的宋利:许多高手并未参加MSU评测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AV1编码持续优化
- 下一篇: Safari上使用WebRTC指南