沉浸式视频技术应用与挑战
正文字?jǐn)?shù):4766 ?閱讀時長:7分鐘
隨著5G時代的到來,低延時、超高清視頻將成為未來幾年內(nèi)視頻發(fā)展的主流趨勢之一,沉浸式視頻或?qū)⒂瓉砥浔l(fā)期。金山云 CDN及視頻云產(chǎn)品中心高級技術(shù)總監(jiān) 蔡媛在線上分享中詳細(xì)介紹了沉浸式視頻發(fā)展的技術(shù)壁壘、挑戰(zhàn)及具體應(yīng)用場景實(shí)踐。
文 /?蔡媛
整理?/ LiveVideoStack
直播回放:
https://mudu.tv/live/watch/general?id=o6deva3l&referVisitorId=28133124&from=singlemessage&time=1611910296708
大家好,我是金山云CDN及視頻云產(chǎn)品中心的蔡媛,本次我將給大家分享的主題是沉浸式視頻傳輸。
1
全球視頻云流量市場預(yù)測
上圖是2019全球視頻云流量市場的預(yù)估數(shù)據(jù)。從2017年到2022年,整個視頻流量以及CDN市場增長非常樂觀。到2022年整個視頻CDN的流量可能已經(jīng)達(dá)到252EB的數(shù)量級。在此之中視頻占比逐年上升到2021年預(yù)計整個視頻的占比超過80%。隨著5G的催生,超高清視頻、低延遲視頻的發(fā)展,沉浸式視頻業(yè)務(wù)將會迎來較大爆發(fā)期,成為視頻發(fā)展的主力軍。
2
疫情期間音視頻通話流量
通過疫情催生,可以看出在整個視頻流量上,音視頻通話的流量猛增200%以上。與此同時,移動視頻的流量增長超過60%。上圖是在今年疫情期間音視頻會議應(yīng)用的下載,下載量暴增超過十幾倍以上。黃色部分是ZOOM下載的增長,可以看出它的增長超過了29倍左右。淺藍(lán)色部分是谷歌Hangouts Meet,超過了百分之二十幾的增長。由此看出,在疫情期間音視頻流量增長實(shí)際上遠(yuǎn)遠(yuǎn)超過預(yù)期。
3
移動通信下的視頻趨勢
在電子時代,當(dāng)時網(wǎng)絡(luò)狀況只有100KB左右網(wǎng)絡(luò)帶寬。當(dāng)時我們更多的是在電視上觀看視頻。到了互聯(lián)網(wǎng)1.0的時代,我們開始在PC上觀看視頻包括點(diǎn)播,當(dāng)時比較流行的應(yīng)用場景有優(yōu)酷、土豆、酷6。在當(dāng)時互聯(lián)網(wǎng)1.0時代就是3G時代的標(biāo)志性視頻應(yīng)用和網(wǎng)站。到了移動互聯(lián)網(wǎng)時代,在4G網(wǎng)絡(luò)的催生下爆發(fā)出一些類似于抖音快手的短視頻應(yīng)用以及現(xiàn)在非常流行的直播包括泛娛樂的場景、秀場,其中具有代表性的APP如映客、花椒、陌陌、火山,除此以外包括視頻的通信如微信、ZOOM,音視頻的通信也爆發(fā)起來。另外我們在疫情期間在線教育蓬勃發(fā)展屬于在互聯(lián)網(wǎng)2.0時代催生產(chǎn)物?;ヂ?lián)網(wǎng)2.0時代的帶寬大概是在百兆的網(wǎng)絡(luò)狀況。預(yù)測在下一個階段產(chǎn)業(yè)互聯(lián)網(wǎng)的階段,隨著5G帶來的催生作用,5G帶寬有極大的增長,網(wǎng)絡(luò)從百兆提升到1GB。在此情況下,我們可以預(yù)估未來在醫(yī)療場景、監(jiān)控、遠(yuǎn)程教育、在線課堂以及VR、AR云游戲場景下,會有爆發(fā)性的增長。
4
場景形態(tài)
4.1 實(shí)景式在線教育
上圖是實(shí)時場景下的在線教育,可以看出增強(qiáng)現(xiàn)實(shí)可以讓學(xué)習(xí)更加具備真實(shí)感和代入感,上圖中恐龍的場景,對于學(xué)生來說,它的代入感非常強(qiáng),體驗非常真實(shí)。而混合現(xiàn)實(shí)的操作可以讓技術(shù)工人的操作更加有真實(shí)感。
4.2 高互動在線娛樂
VR游戲互動性與代入感非常強(qiáng),它的肢體識別、動作識別都可以使整個游戲的趣味性極大增加。我們可以通過VR直播、VR眼鏡去觀看一場NBA的球賽或世界杯的足球賽。這種虛擬現(xiàn)實(shí)使人具有身臨其境的感覺。
4.3 沉浸式在線辦公
虛擬沉浸式在線辦公中現(xiàn)如今比較普及的是ZOOM、騰訊會議、釘釘在線進(jìn)一步優(yōu)化沉浸式辦公應(yīng)用。通過超高清、沉浸式、低延遲提高遠(yuǎn)程辦公的協(xié)作效率。
根據(jù)IDC的市場評估,沉浸式視頻云市場發(fā)展的趨勢處于飛速發(fā)展的階段。從2019年到2023年五年期間,整個年復(fù)合增長率超過66%,由此看出這是個非常強(qiáng)勁的增長。到2023年,整個VR、AR設(shè)備的保有率將會超過6000萬以上,這就是未來VR、AR的設(shè)備將有爆炸式增長。在硬件加持的基礎(chǔ)上,開發(fā)者可以有更大的想象空間,未來VR、AR的應(yīng)用和它創(chuàng)意性的應(yīng)用會有很大增長。
5
沉浸式視頻面臨的挑戰(zhàn)
5.1 挑戰(zhàn)是什么?
人眼對沉浸式視頻的要求會更加的苛刻,人眼對視頻機(jī)制的追求需要達(dá)到50K、120fps、20bit的分辨率和碼率以及色域的要求,才能達(dá)到真正人眼沉浸式的需求。當(dāng)前我們所看到的網(wǎng)上視頻遠(yuǎn)遠(yuǎn)達(dá)不到這樣的要求,更多的是720p、30fps、8bit。要達(dá)到人眼對沉浸式視頻的要求,對視頻的編解碼以及傳輸會有非常巨大的挑戰(zhàn)。
5.2 應(yīng)對挑戰(zhàn)的方法
金山云的產(chǎn)品布局主要集中在三個方面:互動性,去提高視頻的互動能力;超高清;VR技術(shù)。這三塊技術(shù)構(gòu)建在整個金山云的IaaS平臺的基礎(chǔ)上。IaaS擁有大規(guī)模的云計算平臺、CDN的流量分發(fā),以及RTC加邊緣計算等底層IaaS技術(shù)。通過IaaS技術(shù),構(gòu)建對開發(fā)者提供完善的PaaS的平臺,包括邊緣計算平臺,以及邊緣計算加RTC音視頻傳輸?shù)哪芰?#xff0c;這是我們在互動低延遲上能力輸出。第二部分是超高清,超高效除了開放編解碼技術(shù)、8K、10bit編碼能力,還提供了包括畫質(zhì)評測以及魔鏡平臺,這些專門針對超高清的產(chǎn)品去提供給開發(fā)者和客戶去使用,在VR上我們會專注于低延遲的VR編解碼、VR傳輸、在AI加持下的手勢肢體識別去提供整個VR的解決方案。以上是金山云在產(chǎn)品上的布局。
6
金山云視頻云關(guān)注技術(shù)點(diǎn)
金山云視頻云關(guān)注技術(shù)點(diǎn)主要集中在上圖三個大方向。第一部分是低延遲,通過RTC和邊緣計算的軟件加平臺的支持,可以保證編解碼在傳輸過程中的延遲在毫秒級以內(nèi)。第二部分是編解碼技術(shù),是我們的核心,在編解碼的加持下,會提供一個超高清的能力專注于8K、10bit,盡可能多去給客戶帶來碼率節(jié)省。第三部分是沉浸式技術(shù),通過AR、VR的技術(shù)以及AI技術(shù)的加持下,去整合視頻的能力、超低延遲的編碼、傳輸方案以及相應(yīng)的AI技術(shù)能力。所有的金山云的核心技術(shù)能力將會通過PaaS平臺去對外提供產(chǎn)品。三大塊的技術(shù)點(diǎn)將會通過金山云沉浸式的平臺、通過PaaS的方式提供給客戶,去支持創(chuàng)新性的開發(fā)與應(yīng)用底層能力的支撐。
6.1 RTC+邊緣計算技術(shù)帶來低延遲
如何通過RTC+邊緣計算技術(shù)帶來低延遲的音視頻傳輸?shù)哪芰Α=鹕皆频倪吘売嬎阍谌虺^1000個點(diǎn)的數(shù)據(jù)中心的規(guī)模,所以可以提供低于15毫秒的低延遲接入、良好的跨網(wǎng)絡(luò)的路由調(diào)度能力以及高效的音視頻傳輸?shù)臄?shù)據(jù)流。金山云的邊緣計算有非常強(qiáng)大的算力支持和布點(diǎn)的分布。通過RTC軟件的能力,金山云還提供了百人同時在線的音視頻通話的能力、豐富SDK終端支持。通過強(qiáng)大的音視頻處理和FEC弱網(wǎng)技術(shù)的支撐,可以提供豐富音視頻場景的能力支撐。目前金山云更多集中在泛娛樂的場景,比如說泛娛樂的連麥,以及在線音視頻的教育,未來RTC和邊緣計算能力的結(jié)合,可以很好地應(yīng)用在我們的沉浸式的低延遲的場景上。
6.2 智能超高清編碼方案
第一部分金山云在編解碼技術(shù)上超過了5年的技術(shù)的積累,編解碼技術(shù)可以為客戶節(jié)省帶寬超過60%甚至80 %以上的壓縮率。這個壓縮率數(shù)據(jù)在行業(yè)中處于非常領(lǐng)先的能力水平。第二部分是通過我們的算法包括圖像算法、編碼算法,將畫面進(jìn)行分層的處理、重點(diǎn)去進(jìn)行畫質(zhì)的增強(qiáng)。第三部分是AI技術(shù),通過場景預(yù)測分析,畫質(zhì)的分析,我們可以為視頻客戶相應(yīng)不同場景的視頻,提供編碼的最優(yōu)解,達(dá)到場景化最優(yōu)編碼方案提供給使用者。
6.3 金山云深耕編碼技術(shù)
在編碼標(biāo)準(zhǔn)上,金山云同時支持了264編碼、265編碼、國產(chǎn)的AVS2的編碼以及最新的第四代編碼標(biāo)準(zhǔn)AV1,都在平臺上實(shí)現(xiàn)了商業(yè)化。同時我們也是AOM開放編碼組織的核心成員之一。
編碼都擁有獨(dú)立的知識產(chǎn)權(quán)。在2019年金山云提供專利超過50篇以上。
在性能上壓縮率大大高于開源編碼壓縮率,達(dá)到行業(yè)非常領(lǐng)先的位置。編碼優(yōu)化的效率在性價比上在云廠商處于非??壳暗奈恢?。
我們還支持全鏈路。全鏈路是指同時支持云上的云轉(zhuǎn)碼,同時也支持移動端的編解碼、web端的編解碼解碼的能力。所以金山云在云上、移動端上、PC端上、web端上支持整個全鏈路的播放、端的云上編碼能力。
6.4 AV1編解碼進(jìn)展
當(dāng)前AV1編碼已經(jīng)支持了4K、8K超高清編碼以及100fps10bit編碼,10bit在iPhone12和小米10上已經(jīng)支持10bit的視頻拍攝與應(yīng)用。在這些APP中會有更多的應(yīng)用。金山云在AV1上提前布局,已經(jīng)支持了10bit的編解碼云上支持。
上圖是AV1編解碼的視頻展示,原片是6.37M,在265編碼下可以壓縮到1.59M,節(jié)省碼率帶寬大概是75%。在AV1下可以進(jìn)一步壓縮到800多kb,碼率節(jié)省達(dá)到85%,視頻的傳輸上有非常大的支持,可以將碼率降低到80%以上,她的傳輸質(zhì)量還有她的傳輸延遲,都會有很好的體驗上升。
6.5 超清畫質(zhì)解決方案
上圖是在AI能力的加持下,AI加超高清編解碼的解決方案。通過AI我們可以實(shí)現(xiàn)以上四個大的提升。第一個是場景識別,可以對視頻場景進(jìn)行識別,對體育、秀場、游戲等不同的場景進(jìn)行匹配,對不同的場景運(yùn)用不同的編碼模板達(dá)到最優(yōu)的編碼應(yīng)用。第二個是內(nèi)容分割,通過ROI的分割,利用AI技術(shù)可以識別視頻中的人眼關(guān)注的區(qū)域如嘴唇,更多會對這些重點(diǎn)區(qū)域進(jìn)行視頻增強(qiáng),使主觀的效果更加優(yōu)秀,讓主體更加突出,讓背景看起來更純凈。第三個是質(zhì)量分析,通過神經(jīng)學(xué)習(xí),金山云支持多重的評價質(zhì)量類型包括KPA(圖像視頻感知評價體系)的質(zhì)量分析和VMAF分析,這些分析可以對不同的視頻進(jìn)行質(zhì)量的判定,比如對于高清的視頻可以應(yīng)用更激進(jìn)的編碼參數(shù),對于低清的視頻,可能會進(jìn)行一個更好的修復(fù),讓整體效果更加優(yōu)秀,視頻質(zhì)量進(jìn)一步提升。第四個是感知編碼,我們可以檢測出人眼最關(guān)注的區(qū)域比如人眼對邊緣的區(qū)域非常關(guān)注,會在邊緣地方分配更多的碼率進(jìn)行編碼。這四大塊是通過AI加編解碼的能力達(dá)到融合,使編碼更加高效,分配碼率更加合理,提高整個畫質(zhì),降低傳輸碼率。
6.6?VR分塊編碼
這一部分主要分享的是在VR上做的一些核心技術(shù)投入。首先是264編碼和265編碼和AV1編碼的差別。264編碼只支持Slice的切分,也就是橫向的切分。對于AV1和265編碼而言,它支持Tile的劃分,也就是它支持橫向和縱向的劃分,就是天然可以支持進(jìn)行分塊的編碼,這在VR中非常重要。通過我們的分塊,可以將VR進(jìn)行切分,通過切分后分塊進(jìn)行渲染,如果沒有分塊的渲染,只是整個視頻在VR硬件上進(jìn)行渲染對計算能力要求非常高,有可能設(shè)備解碼的溫度可能達(dá)到60攝氏度,戴在頭上是沒辦法接受的,只能在電視上進(jìn)行觀看。但是有了Tile編碼之后,只需要去解碼視場角范圍內(nèi)的視頻塊,會大大減輕頭顯對于解碼的計算能力的要求,使高清成為可能。Tile的話另外一個優(yōu)勢是,它的體積會更加小,碼率節(jié)省可以超過75%,大大減少整個傳輸?shù)某杀尽ile方案同時也帶來了挑戰(zhàn),首先是轉(zhuǎn)頭延遲,因為通過Tile的編碼,它只傳輸一部分的視頻,在轉(zhuǎn)頭的時候,要求延遲需要控制在人眼可以接受的范圍,對邊緣計算的要求,對處理的要求以及網(wǎng)絡(luò)傳輸?shù)囊蠖紩幸粋€更苛刻的訴求。其次是對AI和圖像處理而言也會帶來更大挑戰(zhàn),傳統(tǒng)圖像處理是針對整個畫面去做處理的,經(jīng)過Tile的傳輸和分塊之后,它進(jìn)行了切割和切分的處理,通過分塊編碼以及分塊編碼后的視頻處理的能力加上邊緣計算的能力,金山云能夠比較好地處理Tile編碼帶來的挑戰(zhàn)。通過“云、邊、端”鏈條可以將轉(zhuǎn)頭延時降低到人眼可接受范圍,同時在Tile編碼上對圖像處理很好進(jìn)行圖像增強(qiáng)。
6.7?沉浸式FOV視場角
Tile編碼是為了更好的實(shí)現(xiàn)FOV視場角的訴求。FOV視場角是在人眼上看到有一個范圍,大概人眼能夠觀測的范圍是90度的范圍。沉浸式視頻是360度的視角,但人眼最關(guān)注的區(qū)域在90度到120度之間。在人眼FOV視場角范圍內(nèi),我們可以傳輸和展現(xiàn)高清的視頻,當(dāng)我們轉(zhuǎn)頭時,我們會把視場角由低分辨率切換到高分辨率,而視場角范圍外就會從高分辨率切換到低分辨率,這個切換實(shí)際上是要求在視頻的切換上需要保持在30毫秒到60毫秒以內(nèi)。要達(dá)到這個,一方面需要Tile編碼的支持,另一方面也需要邊緣計算、網(wǎng)絡(luò)傳輸、編碼上的支持,讓視頻傳輸碼率更小,它的傳輸延遲就會極大降低,才能夠控制在60毫秒以內(nèi)。除了傳輸之外還需要在頭顯上集成和適配。所以全鏈路需要“云、邊、端”三端進(jìn)行融合,才能實(shí)現(xiàn)低延遲的轉(zhuǎn)頭延遲。金山云在FOV上有一定的時間沉淀,在這方面會通過平臺的方式以及解決方案的方式提供給客戶、開放給開發(fā)者去進(jìn)一步使用。以上就是關(guān)于技術(shù)上的一些分享。
7
愿景
金山云是在上圖三個大的方向上進(jìn)行投入。第一方面是互動互聯(lián),通過我們的互動視頻,可以使金山云更加智能、提供更低的延遲、更高清的語音和視頻的效果。第二方面是超高清能力,提供更高的畫質(zhì)體驗、更大的壓縮率和更好的編碼效率、提供更好的性價比編碼服務(wù)和視頻媒體處理服務(wù)。第三方面試沉浸式技術(shù),通過分塊編碼、低延遲視角、FOV的低延遲的能力以及通過AI去加持交互識別可以提供整個沉浸式技術(shù)給到開放平臺上進(jìn)行開放,我們愿景是通過整個沉浸式視頻的平臺助推5G時代高清應(yīng)用的發(fā)展。
LiveVideoStackCon 2021 ShangHai
我們準(zhǔn)備好全新的內(nèi)容
在上海歡迎您的到來
LiveVideoStackCon 2021?上海站
北京時間:2021年4月16日-4月17日
點(diǎn)擊【閱讀原文】了解大會詳情
總結(jié)
以上是生活随笔為你收集整理的沉浸式视频技术应用与挑战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021音视频开发的“坑”,等你来填!
- 下一篇: 音视频技术开发周刊 | 183