与金山云的樊博士聊了聊AV1算法优化以及如何提升沉浸式视频的沉浸感
講師介紹
樊鴻飛,金山云高級研發總監,北京大學計算機科學與技術專業博士,負責視頻云的VR、視頻編碼、人工智能等技術線研發,近年來主要從事沉浸式視頻、視頻編碼、圖像處理、計算機視覺方向上的研究與技術落地,主要研究與應用成果發表于國際頂級期刊IEEE TIP、IEEE TCSVT、IEEE TMM等。
以下內容由LiveVideoStack與樊鴻飛的采訪整理而成。
?AV1算法優化?
LiveVideoStack:作為AOM的成員之一,今年金山云在AV1算法優化方面,又做了哪些研發工作?取得了哪些成果,有具體的數據/產品功能可以分享嗎?
樊鴻飛:金山云持續在 AV1 編碼速度上進行了優化,較去年年中編碼速度再翻倍,幾乎沒有客觀畫質損失,超過開源的 AOM和SVT-AV1。同時,逐步完善各種碼控模式,滿足點播場景需要。另外,AV1在主觀畫質上也有一個版本的迭代,在PSNR loss 不足1%的情況下,提升VMAF的BD-RATE性能20%以上。
?提升沉浸感?
LiveVideoStack:在沉浸式視頻中,人眼對視頻沉浸感的要求越來越高,金山云如何滿足用戶在這方面的需求?以及如何檢測人眼感興趣的地方?
樊鴻飛:提升沉浸感的根源在于傳輸更高分辨率的圖像畫面,金山云在確保畫面質量的前提下,提供110+°廣角、360°全景的4K/8K視頻的實時編碼/渲染能力。同時,我們采用高清+低清的雙路流方案,在畫面邊緣(偏離視軸最遠處)使用低清畫面,達到更大的視角覆蓋率,能夠顯著提升畫面沉浸感。
在ROI方面,我們使用基于人工智能的顯著度度量+目標檢測算法,來識別100多種人眼顯著的圖像內容區域,對這些像素區域分配較低的QP來提升畫質。
除此之外,我們更關心人眼敏感的低頻區域,針對空域和時域兩個維度來考慮,當空域高頻集中或者時域運動過快的區域,都可以進行碼率上的節省,相反對于人眼敏感的頻域部分都會進行像素級的保護。
LiveVideoStack:您認為沉浸式視頻在超高清轉碼下的平均延遲目前大概是多少?真正的沉浸體驗目標延遲是多少?您認為多少是優秀,多少是及格?
樊鴻飛:一般情況下,沉浸式視頻要求具備超高清和低延遲互動兩個能力。針對弱互動來說,延遲一般可以允許高于3000ms;對于一些低延遲直播,例如主播需要根據情況及時回應觀眾的彈幕、打賞信息等場景,一般需要800ms~1200ms左右的延遲;對于中互動場景,例如主播之間的連麥,需要400ms~800ms;對于強互動來說,是對延遲零容忍的,比如視頻會議,甚至更高要求的云游戲,則需要延遲低于400ms。
對于低延遲直播,仍然能夠允許在云端進行轉碼處理,但處理總延遲不能高于100ms。對于眾互動甚至強互動的應用場景下,已經開始需要在終端完成全部處理,終端的整體處理延遲不能超過200ms,一般留給編碼器的延遲不能高于80ms。
因此,對于云端來說,100ms以下的處理延遲我們認為是及格;對于終端來說,80ms算及格。關于云游戲這樣極端的體驗來說,整體編碼延遲不能超過12ms,因此只有編碼器能夠達到12ms以內的延遲,才能算作優秀。
LiveVideoStack:您認為目前5G技術對沉浸式視頻的助力有多大?助力點具體體現在哪些方面?您如何看待它的未來趨勢?
樊鴻飛:首先,5G的移動邊緣計算(MEC)、網絡切片等技術特性能夠極大降低邊緣推拉流產生的鏈路延遲,尤其是在一些類似于FOV這種終端跟邊緣需要進行頻繁上下行通信的場景中將產生非常大的增益。
其次,5G的大帶寬將使得終端能夠輕易的獲取8K乃至12K、16K的碼流,而更大的分辨率意味著更強的沉浸感。
最后,5G的高速率低延遲將催生出大量沉浸式直播應用場景,而受限于4G的局限性,這些場景在當下是十分稀缺的。
可以預見的是,沉浸式視頻在未來與5G將具備非常深層次的綁定關系,很多沉浸式視頻技術也將基于5G得到迅速發展,例如全景VR、3D視覺、6DoF等等。就像3G催生出移動互聯網普及、4G催生出短視頻/RTC等應用,在5G場景下,沉浸式視頻將是一個非常重要的爆發點。
LiveVideoStack:您認為金山云視頻云在行業內的競爭優勢是什么?
樊鴻飛:金山云視頻云致力于為客戶提供高畫質、低延遲、智能化的沉浸式視頻云服務,除了我們的高穩定性、資源彈性、7*24小時售后服務體系、成熟完善的重保流程體系之外,金山云視頻云在畫質、卡頓率兩個核心指標上出類拔萃。在這其中,視頻編碼則是我們算法的核心部分,為了打造最好的主觀畫質,我們先后推出金山云魔鏡平臺、KPA(Kingsoft Cloud Perceptual Assessment)無參考主觀評價指標等服務,同時利用KPA持續優化我們的編碼算法,致力于在相同碼率下達到最優主觀畫質。
?對泛娛樂領域的期待?
LiveVideoStack:除去已經被多次討論的在線教育、語音社交等領域,在您看來,音視頻行業還有哪些領域將迎來井噴式的發展?
樊鴻飛:我認為音視頻行業在泛娛樂領域的發展還并沒有完成,我仍然看好其在泛娛樂行業的增長。從性能指標來看,延遲、卡頓、畫質等指標均尚未滿足云游戲的要求。未來的終端會往更輕便、低功耗的方向發展,終端的功能也會更加傾向于與現實的交互能力與顯示視頻的能力。很多應用都會以視頻流的形式傳輸到終端,讓終端來進行顯示和交互。但是目前的延遲還無法比擬直接在終端上進行計算,從而對諸多應用有了限制。因此,當技術邁過了延遲、卡頓、畫質這三個核心指標之后,以云游戲為首的云端渲染、終端顯示的新模式將在泛娛樂行業迎來爆發式的增長。
?大會分享預告?
LiveVideoStack:對于本次 LiveVideoStackCon 2021 上海站的分享,您會帶來哪些令人期待的具體內容呢?
樊鴻飛:這次LVS2021上海站,我將分享在超高清沉浸式視頻應用中,我們對編碼器的性能做的優化。由于沉浸式視頻的超高分辨率,這個場景對編碼器提出了很高的要求,需要編碼器在有限的碼率內保證高清晰度的編碼質量。客觀指標(如PSNR、SSIM)對視頻質量的衡量是有局限性的,因此對客觀指標下的視頻編碼優化無法達到主觀畫質的最優。金山云通過預處理、JND、全景視頻投影轉換等算法,考慮人眼對不同頻域的感知,最優化相同碼率下的主觀畫質,持續為用戶提供優質的直播、點播服務。
編輯:Teresa Li
Pic from?Canva
LiveVideoStackCon 2021?上海站
時間:2021年4月16日-4月17日
我們準備好全新的內容,在上海歡迎您的到來
點擊【閱讀原文】了解更多詳情
總結
以上是生活随笔為你收集整理的与金山云的樊博士聊了聊AV1算法优化以及如何提升沉浸式视频的沉浸感的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文看懂WebTransport
- 下一篇: 【内容生产创“新”之道】