李松南:智能全真时代的多媒体技术——关于8K、沉浸式和人工智能的思考
點(diǎn)擊上方“LiveVideoStack”關(guān)注我們
視覺(jué)體驗(yàn)在全真時(shí)代顯得越發(fā)重要,如何提高用戶的視覺(jué)體驗(yàn)?更好的編碼標(biāo)準(zhǔn)帶來(lái)的低碼率高畫(huà)質(zhì)、超分等視頻處理手段帶來(lái)的畫(huà)質(zhì)提升、三維視頻帶來(lái)深度感知、任意視點(diǎn)視頻或者VR360視頻帶來(lái)的用戶交互、擴(kuò)展現(xiàn)實(shí)與虛擬現(xiàn)實(shí)帶來(lái)的超現(xiàn)實(shí)感;另一方面,智能時(shí)代革新了音視頻技術(shù),通過(guò)音視頻分析更好的理解數(shù)據(jù)與連接用戶、通過(guò)輔助創(chuàng)作讓音視頻內(nèi)容極大豐富。LiveVideoStack2021北京站邀請(qǐng)到騰訊多媒體實(shí)驗(yàn)室視頻技術(shù)總監(jiān)—李松南,帶領(lǐng)我們一起發(fā)掘在全真時(shí)代與智能時(shí)代里多媒體技術(shù)的無(wú)限可能。
文/李松南
整理/LiveVideoStack
大家好,我叫李松南,來(lái)自騰訊多媒體實(shí)驗(yàn)室,我報(bào)告的題目是《智能全真時(shí)代的多媒體技術(shù)》,副標(biāo)題是《關(guān)于8K、沉浸式和人工智能的思考》。我將結(jié)合在騰訊多媒體實(shí)驗(yàn)室的工作經(jīng)驗(yàn),跟大家在宏觀維度上分享一下我個(gè)人對(duì)8K、沉浸式和人工智能的一點(diǎn)思考,不對(duì)的地方還請(qǐng)大家指正。
我的報(bào)告會(huì)分為三個(gè)部分,首先簡(jiǎn)單介紹一下多媒體實(shí)驗(yàn)室,以及實(shí)驗(yàn)室與騰訊云之間的關(guān)系。第二個(gè)部分介紹一下我對(duì)全真的理解,以及我們是如何通過(guò)增加視覺(jué)信息的維度,來(lái)提升沉浸感。第三部分介紹一下在智能時(shí)代,深度學(xué)習(xí)技術(shù)如何幫助我們更好的理解和生產(chǎn)多媒體信息。
1.??騰訊多媒體實(shí)驗(yàn)室
騰訊多媒體實(shí)驗(yàn)室是騰訊云與智慧產(chǎn)業(yè)事業(yè)群下屬的一個(gè)實(shí)驗(yàn)室,負(fù)責(zé)人是騰訊杰出科學(xué)家劉杉博士。實(shí)驗(yàn)室的工作內(nèi)容主要分為兩大類,一類是是多媒體標(biāo)準(zhǔn)的制定,另外一類是對(duì)產(chǎn)品的技術(shù)支持。在這幅圖里,左側(cè)是實(shí)驗(yàn)室參與到的國(guó)際、國(guó)內(nèi)各種標(biāo)準(zhǔn)組織以及工業(yè)論壇的圖標(biāo),這里有一些可能是大家比較熟悉的,比如ITU、ISO/IEC、MPEG、開(kāi)放媒體聯(lián)盟AOM,做編解碼的都比較熟悉;3GPP、IEFT,做通訊的都比較熟。右側(cè)是實(shí)驗(yàn)室支持到的騰訊內(nèi)外部產(chǎn)品的logo,其中就包括騰訊云在內(nèi)。騰訊云是實(shí)驗(yàn)室非常重要的合作伙伴,實(shí)驗(yàn)室的很多技術(shù),比如視頻編解碼、視頻處理、全景視頻、場(chǎng)景三維重建等,都在通過(guò)騰訊云進(jìn)行輸出。中間圓形的圖案說(shuō)明實(shí)驗(yàn)室在圍繞著標(biāo)準(zhǔn)建設(shè)的同時(shí),在三個(gè)技術(shù)方向上為產(chǎn)品提供服務(wù),這三個(gè)方向分別是多媒體引擎壓縮與傳輸通信、互動(dòng)沉浸式媒體,以及智慧融合媒體。多媒體引擎壓縮與傳輸通訊,最主要的研究方向是視頻編解碼;互動(dòng)沉浸式媒體,研究?jī)?nèi)容包含全景視頻、自由視角視頻、物體和場(chǎng)景的三維重建等等;智慧融合媒體的研究?jī)?nèi)容主要是多媒體的處理、理解和生產(chǎn),我個(gè)人主要負(fù)責(zé)智慧融合媒體部分。接下來(lái)我要介紹的內(nèi)容主要來(lái)自我在實(shí)驗(yàn)室這些年以來(lái)的工作經(jīng)歷,以及平日的一些觀察和思考,希望對(duì)大家有所啟發(fā)。
2.?全真時(shí)代——從8K到沉浸式
繼PC互聯(lián)網(wǎng)、消費(fèi)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)之后,馬化騰先生又提出了全真互聯(lián)網(wǎng)的概念。每個(gè)人對(duì)全真的概念都有自己的解讀,我在這里和大家分享一下我的思考。我會(huì)從連接、呈現(xiàn)與交互這幾個(gè)角度來(lái)解讀全真。從PC互聯(lián)網(wǎng)、消費(fèi)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)再到全真互聯(lián)網(wǎng),從“連接”這個(gè)角度看,“連接”得變得越來(lái)越廣泛、越來(lái)越全面;從“呈現(xiàn)與交互”這個(gè)角度看,“呈現(xiàn)和交互”變得越來(lái)越自然、越來(lái)越真實(shí)。所以更全面的鏈接和更真實(shí)的呈現(xiàn)與交互,是我個(gè)人對(duì)“全真”的解讀。
從連接的角度看。PC互聯(lián)網(wǎng)、消費(fèi)互聯(lián)網(wǎng),連接的是人與信息,人與服務(wù)。我們可以在互聯(lián)網(wǎng)上搜索信息,購(gòu)買商品,購(gòu)買服務(wù),這些都已經(jīng)成為我們?nèi)粘I畹囊徊糠帧T诋a(chǎn)業(yè)互聯(lián)網(wǎng)里,我們希望連接萬(wàn)事萬(wàn)物,我們希望真實(shí)世界的東西都可以通過(guò)互聯(lián)網(wǎng)進(jìn)行訪問(wèn)、進(jìn)行操控,讓一切通過(guò)互聯(lián)網(wǎng)、通過(guò)AI變得數(shù)字化、智能化,比如智慧家居、智慧小區(qū)、智慧學(xué)校、智慧城市、智慧交通、智慧工業(yè)等等。這也逐漸在變?yōu)楝F(xiàn)實(shí)。到了全真互聯(lián)網(wǎng),我們希望可以把真實(shí)世界和虛擬世界進(jìn)行連接,我們希望可以做數(shù)字孿生,創(chuàng)建元宇宙,把真實(shí)世界的東西復(fù)制到元宇宙,同時(shí)創(chuàng)造很多專屬于虛擬世界的東西,區(qū)塊鏈技術(shù)讓虛擬世界的東西也可以獨(dú)一無(wú)二,這樣就使得虛擬世界中的物品變得更有價(jià)值,可能會(huì)在全真時(shí)代、在元宇宙里開(kāi)啟很多全新的商業(yè)模式。
所以,從連接的角度,連接的范圍會(huì)越來(lái)越廣,連接的對(duì)象會(huì)越來(lái)越全。接下來(lái),從“交互”這個(gè)維度來(lái)講,不管是人與機(jī)器之間的交互還是人與人之間的交互,都會(huì)變得越來(lái)越便捷,越來(lái)越真實(shí)。人與機(jī)器的交流越來(lái)越像人與人之間的交流。這里給出了一個(gè)人機(jī)交互技術(shù)的發(fā)展路徑。人機(jī)交互從最早使用打孔卡,到今天仍然在使用的鼠標(biāo)鍵盤,到移動(dòng)互聯(lián)網(wǎng)時(shí)代的觸摸屏,再到智能時(shí)代的語(yǔ)音、動(dòng)作,機(jī)器可以識(shí)別你講的話、你的手勢(shì)、你的目光,再到因?yàn)镹euralink變得非常受人矚目的腦機(jī)接口,以及Meta(Facebook)、蘋果為他們的VR頭盔、AR眼鏡開(kāi)發(fā)的肌電感知手環(huán)、肌電指環(huán)等等。大家都切身的體會(huì)到,人機(jī)交互變得越來(lái)越方便,越來(lái)越真實(shí),越來(lái)越像人與人之間的交互,甚至做到超越。另外一方面,人與人之間的遠(yuǎn)程交互也有變得越來(lái)越像面對(duì)面的交互。最開(kāi)始我們只能通過(guò)信件的方式來(lái)跟遠(yuǎn)方的朋友、親人通信,19世紀(jì)初有了電報(bào),19世紀(jì)中后期又有了電話,現(xiàn)在有了互聯(lián)網(wǎng)、有了寬帶、有了5G,我們更習(xí)慣打開(kāi)攝像頭,用視頻的方式和遠(yuǎn)方的親友聊天、和同事開(kāi)會(huì)、在手機(jī)和電視上看比賽直播等等,當(dāng)網(wǎng)絡(luò)帶寬進(jìn)一步提高,AR/VR普及以后,我們可能會(huì)帶著VR頭盔、AR眼鏡跟遠(yuǎn)方的親人、朋友、同事溝通,感覺(jué)就像他們坐在我們對(duì)面一樣。光場(chǎng)顯示設(shè)備甚至可以讓我們不需要佩戴觀看設(shè)備實(shí)現(xiàn)6DoF的觀看體驗(yàn)。所以交互,不管是人機(jī)交互還是人與人之間的遠(yuǎn)程交互,都變的越來(lái)越真實(shí)。
除了“交互”以外,“呈現(xiàn)”也會(huì)變得越來(lái)越真實(shí)。今天我們?cè)诨ヂ?lián)網(wǎng)上消費(fèi)的內(nèi)容主要還是音視頻,依賴的是我們的視覺(jué)和聽(tīng)覺(jué)。有些虛擬現(xiàn)實(shí)設(shè)備,比如VR手套、VR背心,還會(huì)給我一些觸覺(jué)的反饋。我也接觸過(guò)一些公司,他們的設(shè)備可以合成多種氣味,利用到的是我們的嗅覺(jué)。利用味覺(jué)的設(shè)備也有,大家可以在網(wǎng)上搜索一下。所以說(shuō),呈現(xiàn)的方式在全真時(shí)代會(huì)變的越來(lái)越豐富,越來(lái)越真實(shí)。從視覺(jué)和聽(tīng)覺(jué)的角度講,我們已經(jīng)有非常多的體會(huì)了。聲音上我們從單聲道、到立體聲、到環(huán)繞聲、再到全景音。視覺(jué)上,從2D到3D、到3DoF、再到我們可以在VR游戲中體驗(yàn)到的6DoF。我們可以切身的體會(huì)到,呈現(xiàn)的真實(shí)感在不斷的增強(qiáng)。這些就是我個(gè)人對(duì)全真的理解:“連接”體現(xiàn)出的全面以及“交互和呈現(xiàn)”體現(xiàn)出來(lái)的真實(shí)。因?yàn)槲以诙嗝襟w實(shí)驗(yàn)室的工作內(nèi)容主要與視覺(jué)相關(guān),所以接下來(lái)我會(huì)更具體的講一講“視覺(jué)”這塊的內(nèi)容,從2D到6DoF,我們可以用哪些技術(shù)來(lái)提升視覺(jué)的真實(shí)感、沉浸感。
我們?cè)谑謾C(jī)和電視上看到的主要還是2D的圖像或者視頻。如何提高2D視頻的真實(shí)感、沉浸感呢?最直接的方式是擴(kuò)大視角、增加視頻的分辨率。在坐的很多人肯定都看過(guò)IMAX電影,可能有些家里的電視是4K甚至8K的,當(dāng)你坐在巨大的屏幕前面,滿眼充斥的都是視頻內(nèi)容,你的沉浸感就會(huì)很強(qiáng)。為了在大屏前播放視頻,屏幕和視頻分辨率要足夠大,否則視頻會(huì)有明顯的模糊感或者顆粒感。那么如何在帶寬有限的前提下來(lái)提升視頻的分辨率呢,我們需要用到視頻編解碼。
為了支持大分辨率、高動(dòng)態(tài)范圍,我們通常會(huì)使用更新的編碼標(biāo)準(zhǔn)。比如編碼8K、HDR的視頻,我們不能用264,只能用265,如果266普及了,我們可能還會(huì)用266。最主要的原因是節(jié)省碼率,因?yàn)槊恳淮幋a標(biāo)準(zhǔn)都會(huì)比它的上一代節(jié)省幾乎一半的碼率。碼率降低以后延遲和卡頓也會(huì)相應(yīng)的降低。除了主流的26X標(biāo)準(zhǔn)之外,還有兩個(gè)系列的標(biāo)準(zhǔn)實(shí)驗(yàn)室也有參與,分別是谷歌、AOM的VP9、AV1、AV2,還有我們的國(guó)標(biāo)AVS,從AVS,AVS+,AVS2,到AVS3。這些標(biāo)準(zhǔn)的共性之一是對(duì)大分辨率的視頻支持的越來(lái)越好,這一點(diǎn)從塊劃分方式上就可以看出來(lái)。比如,264只支持16x16的宏塊,265支持64x64的編碼樹(shù)單元,266支持128x128的編碼樹(shù)單元。所以編碼高分辨率的視頻,我們需要盡可能的利用新的編碼標(biāo)準(zhǔn)。當(dāng)然采用哪種編碼標(biāo)準(zhǔn)除了考慮壓縮效率還需要考慮其他因素,比如硬件的支持、專利的風(fēng)險(xiǎn)等等。
除了使用更新的編碼標(biāo)準(zhǔn)之外,我們還可以考慮使用針對(duì)不同應(yīng)用場(chǎng)景的特定編碼工具來(lái)提高編碼效率,也就是所謂的場(chǎng)景編碼。這里給的一個(gè)場(chǎng)景編碼例子是屏幕內(nèi)容編碼。屏幕內(nèi)容編碼在很多標(biāo)準(zhǔn)中都有支持。屏幕內(nèi)容和攝像頭拍攝的視頻內(nèi)容有很大的不同。屏幕內(nèi)容通常沒(méi)有噪聲、靜態(tài)居多、色調(diào)單一、邊界銳利,有很多平滑區(qū)域、圖像內(nèi)部有很多重復(fù)等等。利用這些特點(diǎn)我們可以開(kāi)發(fā)出具有針對(duì)性的編碼工具,比如幀內(nèi)塊拷貝、調(diào)色板編碼等等。用這些技術(shù)可以極大的提高編碼效率,在碼率不變甚至碼率變少的情況下,可以提供更高的分辨率。
除了場(chǎng)景編碼以外,很多學(xué)者在嘗試使用深度學(xué)習(xí)來(lái)提升編碼效率。最左邊的圖是目前編解碼標(biāo)準(zhǔn)中普遍采用的混合編碼框架,結(jié)合了預(yù)測(cè)、變換、熵編碼等等一些傳統(tǒng)信號(hào)處理的工具。雖然編碼標(biāo)準(zhǔn)一直在不斷的迭代,但從H.261開(kāi)始的混合編碼框架,一直沿用到現(xiàn)在。基于神經(jīng)網(wǎng)絡(luò)來(lái)做視頻編碼最早可以追溯到八十年代,但那個(gè)時(shí)候的神經(jīng)網(wǎng)絡(luò)只有兩、三層,所以效果不是很好。進(jìn)入到深度學(xué)習(xí)時(shí)代以后,越來(lái)越多的學(xué)者開(kāi)始使用更深的神經(jīng)網(wǎng)絡(luò)來(lái)做編碼,比如,有些會(huì)使用像中間這幅圖展示的autoencoder自編碼器這樣的結(jié)構(gòu),有些還會(huì)沿用混合編碼框架,但用深度神經(jīng)網(wǎng)絡(luò)提高部分模塊,比如環(huán)路濾波、幀間幀內(nèi)預(yù)測(cè)、編碼模式?jīng)Q策等等。還有一些工作把混合編碼框架中所有的模塊全部用深度學(xué)習(xí)替代,實(shí)現(xiàn)了端到端的訓(xùn)練,取得了優(yōu)于傳統(tǒng)方法的壓縮效率。
這頁(yè)P(yáng)PT中給出了四個(gè)實(shí)現(xiàn)了端到端編碼的例子,其中有些對(duì)運(yùn)動(dòng)向量的編碼方式進(jìn)行了優(yōu)化,有些使用了比較創(chuàng)新的幀間對(duì)齊方法,有些使用了多參考幀,有些使用了雙向參考幀以及層級(jí)參考。具體的技術(shù)細(xì)節(jié)就不在這里討論了。總之已經(jīng)有很多工作證明了,深度學(xué)習(xí)應(yīng)用在視頻編解碼上是可以提高編碼效率的。目前也有很多標(biāo)準(zhǔn)組織在做這方面的規(guī)劃,比如JEPG AI、JVET NVCC、IEEE FVC等等,都在調(diào)研基于AI的編碼標(biāo)準(zhǔn)。目前把AI應(yīng)用在編解碼的最大障礙在編解碼的復(fù)雜度,使用深度學(xué)習(xí)可能會(huì)使得編解碼的復(fù)雜度提升幾十倍、上百倍、甚至上千倍。同時(shí)傳統(tǒng)方法仍然有進(jìn)一步的提升空間,所以AI在視頻編解碼中的應(yīng)用可能還需要一段時(shí)間。
剛才講到可以通過(guò)場(chǎng)景編碼、AI編碼來(lái)提高視頻畫(huà)質(zhì)。除了畫(huà)質(zhì)以外,另外兩個(gè)影響用戶體驗(yàn)的重要因素是延遲和流暢度,或者延遲與卡頓程度。畫(huà)質(zhì)好,延遲低、流暢無(wú)卡頓,這種視覺(jué)體驗(yàn)讓我們更有沉浸感。有非常多的手段來(lái)減少延遲卡頓。有些是和網(wǎng)絡(luò)傳輸相關(guān)的,比如結(jié)合應(yīng)用場(chǎng)景使用更適合的傳輸協(xié)議,使用前向糾錯(cuò)減少丟包卡頓等等。有些是和編解碼相關(guān)的,使用一些編解碼工具也可以減少延時(shí)和卡頓。比如自適應(yīng)參考幀技術(shù),當(dāng)解碼端發(fā)現(xiàn)有某個(gè)參考幀丟失,可以通知編碼端,不再用這個(gè)丟失的幀作為后續(xù)幀的參考幀。再比如這里介紹的可伸縮編碼技術(shù)。在直播和RTC等場(chǎng)景中,下行帶寬通常變化很大,比如像這個(gè)圖中展示的,有1Mbps的、2Mbps、4Mbps的不等。如果編碼端只考慮最高的下行帶寬,編碼4Mbps的碼率,那么1Mbps和2Mbps的用戶,就會(huì)很卡。如果編碼端用1Mbps的,那么2Mbps和4Mbps的客戶,他們的帶寬就沒(méi)有被充分利用,大家看到的畫(huà)面就都很糊。如果發(fā)送端同時(shí)提供1Mbps、2Mbps、4Mbps的碼流,又會(huì)造成發(fā)送端上行帶寬的增加,同時(shí)發(fā)送端的編碼計(jì)算量也會(huì)增加。還有一種方案是在服務(wù)器端做轉(zhuǎn)碼,但這樣會(huì)增加服務(wù)器的計(jì)算壓力,同時(shí)也會(huì)增加延遲。
在這種情況下,我們可以使用可伸縮視頻編碼技術(shù)SVC。編碼端編碼出一套分層的碼流,比如如圖所示的三層碼流,這里我們用不同的顏色表示不同的層,紅色是layer0,藍(lán)色是layer1,綠色是layer2。解碼端可以根據(jù)它的帶寬情況,選擇只使用部分碼流,如果它網(wǎng)絡(luò)差的話,可以只使用layer0,如果網(wǎng)絡(luò)一般可以使用layer0和layer1,網(wǎng)絡(luò)好的話三層都可以用起來(lái)。這樣就避免了只傳輸一路碼流造成的解碼端的卡頓或者帶寬浪費(fèi),也避免了需要服務(wù)器進(jìn)行轉(zhuǎn)碼造成的計(jì)算消耗以及引入的延時(shí)。
除了視頻編解碼以外,視頻的前后處理也可以幫我們提高視頻的畫(huà)質(zhì),讓老的視頻素材可以煥發(fā)新生。我們可以通過(guò)視頻增強(qiáng)來(lái)提高視頻的分辨率、動(dòng)態(tài)范圍、幀率等等。讓標(biāo)清、高清、SDR,30fps的視頻,變成4K、8K、HDR、60或者120fps的視頻,讓處理后的視屏更適合在大屏上播放。
除了視頻增強(qiáng)以外,我們還希望可以通過(guò)視頻修復(fù)來(lái)來(lái)去除視頻中存在的各種失真。這些失真是從視頻采集到播放的各個(gè)過(guò)程中帶來(lái)的。比如,在視頻采集的過(guò)程中不可避免的會(huì)帶來(lái)噪聲,視頻壓縮的過(guò)程會(huì)帶來(lái)壓縮失真,傳輸過(guò)程可能會(huì)有丟包帶來(lái)的失真,像膠片這樣的存儲(chǔ)介質(zhì)老化、受損也會(huì)帶來(lái)色偏、劃痕、污漬這樣的失真。我們希望通過(guò)視頻修復(fù)算法來(lái)減弱甚至去除這些失真,同時(shí)盡可能的保留視頻內(nèi)容。
視頻處理可以在終端實(shí)現(xiàn),也可以在云端實(shí)現(xiàn),兩者的區(qū)別主要在于算力,云端通常有比較充分的算力來(lái)使用深度學(xué)習(xí)技術(shù),而終端雖然算力也在提升,但因?yàn)楣牡仍?#xff0c;使用基于信號(hào)處理的傳統(tǒng)方法更多。實(shí)驗(yàn)室從13年開(kāi)始做視頻處理,目前已經(jīng)積累了很多中視頻處理能力,其中有很多已經(jīng)被集成到了騰訊云上,有這方面需求的朋友可以直接在騰訊云上體驗(yàn)。
剛才我介紹了如何通過(guò)視頻編碼、視頻處理技術(shù)來(lái)提高2D視頻的沉浸感。為了進(jìn)一步提高視頻的沉浸感,我們可以把2D的內(nèi)容變?yōu)?D的,增加立體感。視覺(jué)的立體感來(lái)自很多方面,比如近大遠(yuǎn)小、遮擋、運(yùn)動(dòng)視差等等,但最重要的來(lái)源是兩眼的視差,如左邊的圖展示的,左右眼看到的畫(huà)面其實(shí)是稍有不同的,原因從中間的圖可以看出來(lái),左右兩個(gè)攝像頭可以認(rèn)為是我們的兩只眼睛,一個(gè)三維點(diǎn)P在左側(cè)畫(huà)面和右側(cè)畫(huà)面上的投影點(diǎn)是不一樣,投影點(diǎn)的差異代表的就是所謂的視差,因?yàn)橛幸暡?#xff0c;我們才有了對(duì)深度的感知,才有了立體感。相信在座的大部分朋友都在影院看過(guò)3D電影,看3D電影的時(shí)候我們需要戴眼鏡,戴眼鏡的目的就是為了分離出帶有視差的兩幅畫(huà)面,分別送給左眼和右眼,讓我們有立體感。最早影院里是用紅藍(lán)眼鏡來(lái)分離左眼和右眼畫(huà)面的,我上小學(xué)的時(shí)候看過(guò)一次這樣的電影,電影內(nèi)容已經(jīng)記不清楚了,印象比較深刻的是看完以后覺(jué)得特別暈。現(xiàn)在影院里用的是偏振光的鏡片,很輕,左右眼的顏色、亮度都比較一致,所以現(xiàn)在在影院看到3D電影已經(jīng)不會(huì)再感覺(jué)到不舒服了。
為了生產(chǎn)3D視頻我們可以用雙目攝像頭進(jìn)行拍攝,早期很多電影是用雙目攝像頭拍攝的,因?yàn)楹蛡鹘y(tǒng)的電影拍攝流程不通,所以拍攝成本可能有10倍以上的增加。所以現(xiàn)在很多的3D電影其實(shí)是通過(guò)2D轉(zhuǎn)3D技術(shù)生產(chǎn)出來(lái)的。將2D視頻轉(zhuǎn)換為3D視頻,需要我們?yōu)樽笱酆陀已凵蓛陕穾в幸暡畹囊曨l。為了正確的生成帶有視差的視頻,我們需要生成視頻中每幀圖像的深度圖作為中間結(jié)果,輔助我們生成帶有視差的兩路視頻。有很多工作在結(jié)合多視圖幾何與深度學(xué)習(xí)來(lái)估計(jì)視頻的深度,這里給出了幾個(gè)例子,感興趣的朋友可以搜索一下看看。
除了3D,我們還可以通過(guò)3DoF來(lái)提升沉浸感。3DoF是三自由度的縮寫(xiě),頭在圍繞XYZ三個(gè)方向的軸轉(zhuǎn)動(dòng)的時(shí)候,畫(huà)面內(nèi)容會(huì)跟著變。VR360視頻就是三自由度的,VR360視頻已經(jīng)越來(lái)越普及了。目前最大的VR360平臺(tái)是Youtube,Youtube自己的VR官方賬號(hào),Virtual Reality,已經(jīng)有超過(guò)300萬(wàn)的訂閱者。Youtube上目前觀看最多的VR影片是這個(gè)關(guān)于天使瀑布的短片,這個(gè)瀑布接近1000米,是世界上最高的瀑布,由于落差太大,水從瀑布上流下時(shí),在落地之前會(huì)散開(kāi)成雨?duì)?#xff0c;因此瀑布底部沒(méi)有水潭,是難得一見(jiàn)的景觀,這個(gè)視頻的觀看次數(shù)超過(guò)1千6百萬(wàn)次。
剛才介紹了3D和3DoF,是否可以把兩個(gè)結(jié)合起來(lái)實(shí)現(xiàn)立體的三自由度?是完全可以的,在網(wǎng)絡(luò)上也可以找很多這樣的視頻內(nèi)容。那如何實(shí)現(xiàn)呢?是不是簡(jiǎn)單的用兩個(gè)全景攝像頭,并排放在一起同時(shí)拍攝就可以了呢?左圖展示的是這用情況,紅色和藍(lán)色表示并排放置的兩個(gè)全景攝像頭拍攝到的內(nèi)容,可以看到,拍攝攝像頭中心連線垂直方向可以有正確的視差,但在拍攝攝像頭中心連線方向的物體時(shí),就完全沒(méi)有視差了,因此就體會(huì)不到立體效果。為了實(shí)現(xiàn)立體三自由度我們需要采集非常多的全景畫(huà)面,就像中間這幅圖中展示的這樣,對(duì)于這些灰色的軌跡點(diǎn),每一個(gè)點(diǎn)上都需要記錄左右眼看到的全景畫(huà)面,這樣需要記錄的數(shù)據(jù)量就非常大,也為后續(xù)的傳輸、渲染過(guò)程造成很大的負(fù)擔(dān)。一種折中的方式是使用這種Omni-Directional Stereo(ODS)的方式進(jìn)行記錄,這種方式只需要生成兩個(gè)全景視頻,除了數(shù)據(jù)生成過(guò)程之外,后續(xù)的傳輸、渲染都與普通的VR360視頻渲染過(guò)程差別不大。
除了3D、三自由度以外,還有一種可以增強(qiáng)沉浸感的技術(shù)是自由視角,今年的東京奧運(yùn)會(huì)已經(jīng)大量的使用了這個(gè)技術(shù),明年的北京冬奧會(huì)也會(huì)使用這種技術(shù)。自由視角提供了一個(gè)子彈時(shí)間的體驗(yàn),讓大家可以從不同的角度欣賞視頻內(nèi)容,而且不需要佩戴VR頭盔,普通顯示器上就可以播放。
最后我們來(lái)看一下6DoF,6自由度。剛才講到3自由度是指頭部轉(zhuǎn)動(dòng),我們可以看到不同內(nèi)容,但我們?cè)诳臻g從一個(gè)位置換到另外一個(gè)位置的時(shí)候畫(huà)面內(nèi)容是不變的,這個(gè)我們?cè)谡鎸?shí)世界中的視覺(jué)體驗(yàn)是不同的。而6自由度就和我們?cè)谡鎸?shí)世界中的視覺(jué)體驗(yàn)是一致的,不管是你頭部轉(zhuǎn)動(dòng)還是上下左右前后移動(dòng),看到的畫(huà)面內(nèi)容都是隨著你的運(yùn)動(dòng)變化的。VR游戲是6自由度的。現(xiàn)在的VR頭盔價(jià)格大幅下降,2000元左右就可以入手。顯示分辨率、用戶體驗(yàn)有比較大的提升。出現(xiàn)了很多一體機(jī)產(chǎn)品,不需要外設(shè)對(duì)頭盔和手柄做定位,也不需要用有線的方式和PC機(jī)連在一起,使用起來(lái)更方便。VR內(nèi)容上越來(lái)越豐富,出現(xiàn)了很多非常受歡迎的VR游戲,比如這個(gè)游戲叫《Beat saber》,用光劍來(lái)切方塊,開(kāi)發(fā)這款游戲的團(tuán)隊(duì)只有三個(gè)人,是一款非常成功的VR小游戲。3AVR大作目前最受認(rèn)可的是《半條命Alyx》,有些人說(shuō)玩VR游戲不要一開(kāi)始就玩《半條命Alyx》,否則會(huì)有“曾經(jīng)滄海難為水”的感覺(jué),玩其他VR游戲的時(shí)候會(huì)不自覺(jué)的對(duì)比,感覺(jué)其他VR游戲體驗(yàn)不夠好。
更極致的沉浸式體驗(yàn)可以在VR主題公園中找到。比如這個(gè)視頻里的是The Void娛樂(lè)中心。它可以讓四位玩家共同對(duì)戰(zhàn)敵人,每位玩家都需要穿上全套的VR裝備,包括一個(gè)頭戴顯示器、一個(gè)定制的高科技背心,和一桿金屬質(zhì)感的槍械。進(jìn)入游戲場(chǎng)地以后,最大的感受就是所謂的MR沉浸感,比如說(shuō),你能觸摸和感覺(jué)到你所看到的墻和柵欄,當(dāng)你看到一把椅子的時(shí)候,你也可以坐上去;另外,墻上的火把,你不但可以拿來(lái)照亮黑暗的走廊,還能夠感受到它的熱度。在劇情中,你能夠?qū)崒?shí)在在的感受到被槍擊中的沖擊力,可以感受到微風(fēng)、震動(dòng)和溫度的變化。
除了虛擬現(xiàn)實(shí)外,擴(kuò)展現(xiàn)實(shí)的展現(xiàn)方式也是六自由度的。擴(kuò)展現(xiàn)實(shí)是要把虛擬的物體添加到真實(shí)的場(chǎng)景中,比如這個(gè)例子是AR版的《超級(jí)馬里奧》。因?yàn)橥高^(guò)眼鏡看到的現(xiàn)實(shí)場(chǎng)景是6自由度的,所以我們疊加到真實(shí)場(chǎng)景中的虛擬內(nèi)容也必須是6自由度的,我們需要定位AR眼鏡在三維空間中的位置和角度,這個(gè)和VR頭盔是非常類似的。但AR眼鏡不能做的像VR頭盔那么大,電池、電路板都要小很多。現(xiàn)在有很多AR眼鏡會(huì)做成分離式的,AR眼鏡和手機(jī)連在一起,計(jì)算都在手機(jī)上進(jìn)行。
剛才提到的ARVR游戲,游戲里面的內(nèi)容都是人造的,是通過(guò)三維建模、動(dòng)畫(huà)軟件制作出來(lái)。如果我們希望可以將現(xiàn)實(shí)世界的東西制作成VR內(nèi)容,用6自由度的方式觀看,通常有兩種方式,一種是做三維重建、三維渲染,另外一種方式是做光場(chǎng)采集、光場(chǎng)渲染。左面的圖是一個(gè)立體捕捉設(shè)備,可以用來(lái)重建一個(gè)小規(guī)模的動(dòng)態(tài)三維場(chǎng)景。右面的視頻是個(gè)VR MV,可以在VR頭盔中播放,在VR頭盔里你可以從不同角度觀察這個(gè)歌手的表演。
另外一種方式是光場(chǎng)采集,盡量多的捕捉從各個(gè)方向上打過(guò)來(lái)的光,再用他們來(lái)生成全新的視角。左邊的這個(gè)工作用到了46個(gè)攝像頭,這些攝像頭分布在一個(gè)半球面上。把這些攝像頭捕捉到的畫(huà)面,送到深度模型中,可以用來(lái)生成多個(gè)層層嵌套的球面圖像,每個(gè)球面圖像除了有RGB信息外還有alpha通道,記錄了這些球面圖像的透明度信息。為了實(shí)現(xiàn)數(shù)據(jù)傳輸,文章還提出了對(duì)這些層層嵌套的球面圖像進(jìn)行壓縮的方法,以及如何對(duì)壓縮后生成的數(shù)據(jù)進(jìn)行6自由度渲染的方法,對(duì)細(xì)節(jié)感興趣的朋友可以閱讀以下這篇文章。這是谷歌的工作,他們之前的工作是針對(duì)靜態(tài)場(chǎng)景做采集和渲染的,這個(gè)工作可以對(duì)動(dòng)態(tài)場(chǎng)景做采集和渲染。右面的工作來(lái)自布朗大學(xué)和CMU,他們提出了一種方法可以將ODS視頻,也就是剛才提到的立體三自由度視頻,轉(zhuǎn)換為6自由度視頻的方法,同樣是用了深度模型,同樣使用了層層嵌套的球面圖像。因?yàn)閷訉忧短椎那蛎嫒菀鬃屓讼肫鸲砹_斯的套娃,所以這邊工作也用“套娃”來(lái)給自己命名。
3.?智能時(shí)代—從理解到創(chuàng)作
剛才和大家分享了一些關(guān)于全真多媒體技術(shù)的思考,除了全真之外,我還想在這里和大家分享一些關(guān)于智能多媒體技術(shù)的思考。
人工智能在每個(gè)行業(yè)都有很多用途,在多媒體領(lǐng)域也一樣。這個(gè)圖里面給出了從媒體生產(chǎn)到消費(fèi)的一個(gè)簡(jiǎn)單流程,AI在很多環(huán)節(jié)都可以發(fā)揮作用,比如做剪輯,審核、推薦、標(biāo)簽,質(zhì)量評(píng)價(jià)等等,這些環(huán)節(jié)都可以利用到AI。這里有很多應(yīng)用是和多媒體理解相關(guān)的,使用AI的目的是為了讓我們可以更方便快速的理解多媒體數(shù)據(jù)中包含的語(yǔ)義信息,這些語(yǔ)義信息可以用來(lái)做審核、認(rèn)證、推薦、搜索等等應(yīng)用。AI除了被用在做多媒體理解之外,會(huì)越來(lái)越多的被用來(lái)做多媒體內(nèi)容的創(chuàng)作。
大家都知道多媒體內(nèi)容包含各種各樣的形式,像視頻、圖片、聲音、文字,三維點(diǎn)云、三維網(wǎng)格、光場(chǎng)信息等等。
按照算法的輸入輸出類型,我們可以把多媒體算法粗略的分為兩大類,第一類算法如左圖所示,它的輸入是各種模態(tài)的多媒體數(shù)據(jù),視頻、圖片、聲音、文字等等,輸出的是屬性信息。可能是一個(gè)屬性,也可能有多個(gè)屬性,可能是離散值,也可能是連續(xù)值,可能是針對(duì)整體的,也可能是針對(duì)部分的。比如對(duì)于一幅圖片,它可能代表圖片的場(chǎng)景信息、圖片中都有哪些物體,這些物體在什么位置等等,或者描述圖片的質(zhì)量,有沒(méi)有過(guò)曝或者欠曝,噪聲程度,美學(xué)程度等等。我們認(rèn)為這些算法是和理解相關(guān)的,是理解類的算法。兩外一類算法是和內(nèi)容生產(chǎn)相關(guān)的,如右圖所示,涉及到的是不同模態(tài)數(shù)據(jù)之間的轉(zhuǎn)化,比如,輸入是一段文字描述,輸出是符合這段文字描述的一張圖片。或者輸入是一段視頻,輸出是這段視頻的文字描述,等等。當(dāng)然這里沒(méi)有體現(xiàn)的情況是,無(wú)中生有的輸出媒體內(nèi)容。比如從一個(gè)噪聲信號(hào)生成一張人臉圖片。或者輸入是某種屬性,輸出是媒體內(nèi)容,比如指定一個(gè)音樂(lè)風(fēng)格,生成一首具有該風(fēng)格的音樂(lè)等等。理解類的算法有非常多的應(yīng)用場(chǎng)景,很多算法也非常成熟了。內(nèi)容生產(chǎn)類的算法應(yīng)用場(chǎng)景也非常多,但相對(duì)而言技術(shù)成熟度還不高,所以在內(nèi)容生產(chǎn)領(lǐng)域,學(xué)術(shù)界和工業(yè)就都開(kāi)始有越來(lái)越多的投入。接下來(lái)我給出幾個(gè)理解類和內(nèi)容生產(chǎn)類算法的具體例子。
首先是理解類的算法。這頁(yè)中給出的是圖片的例子,包括圖片分類、檢測(cè)、分割,這些都是和理解相關(guān)的。分類是給整張圖一個(gè)屬性值。檢測(cè)是對(duì)圖片中的矩形框區(qū)域一些屬性值。分割輸出的是像素粒度的屬性標(biāo)注。
這頁(yè)中給出的是關(guān)于文本的例子。可判斷一段文字的情感屬性,是正向的、中性的還是負(fù)面的,可以用來(lái)統(tǒng)計(jì)評(píng)論的情感傾向。再比如句法分析,判斷一句話的句法結(jié)構(gòu),區(qū)分名詞、動(dòng)詞、介詞、動(dòng)詞性短語(yǔ)、動(dòng)詞性短語(yǔ)、介詞性短語(yǔ)等等。最后一個(gè)例子是實(shí)體關(guān)系抽取,給一段文字,提取其中的實(shí)體詞以及實(shí)體之間的關(guān)系,可以用來(lái)搭建知識(shí)圖譜。
最后一頁(yè)是和音樂(lè)理解相關(guān)的。比如音樂(lè)標(biāo)簽,給定一段音樂(lè),算法可以判斷這段音樂(lè)是否是純音樂(lè)還是有人聲的,可以給出情感、情緒、風(fēng)格、強(qiáng)度這樣的屬性標(biāo)簽。再比如節(jié)奏檢測(cè),可以提取出音樂(lè)中的節(jié)拍位置,我們可以用這些節(jié)拍位置信息做視頻編輯,讓視頻轉(zhuǎn)場(chǎng)的位置與音樂(lè)節(jié)拍的位置匹配在一起,這樣制作出來(lái)的視頻會(huì)比較有節(jié)奏感。最右邊的例子是音樂(lè)結(jié)構(gòu)分析,判斷一段音樂(lè)的主歌、副歌在一段歌曲中的的起止位置。
下面給幾個(gè)內(nèi)容生產(chǎn)的例子,這里我用視頻作為算法的輸入模態(tài)。首先是視頻到視頻的轉(zhuǎn)化,輸入和輸出都是視頻。剛才講到的視頻處理就是這樣一個(gè)例子,輸入是一段低質(zhì)視頻,輸出是去除了失真、質(zhì)量增強(qiáng)了的視頻。這頁(yè)P(yáng)PT中還有其他三個(gè)例子。左邊的橫屏轉(zhuǎn)豎屏,通過(guò)裁剪的方式,把視頻中的顯著區(qū)域裁剪出來(lái),與添加黑邊的方式相比,由于內(nèi)容是全屏顯示的,因此更有沉浸感。中間的例子是視頻集錦,給一段90分鐘的足球視頻,我們可以分析出其中的精彩片段,像射門、進(jìn)球這些通常可以認(rèn)為是精彩片段,把精彩的部分拼接在一起做成一個(gè)精彩集錦,快速的生成短視頻內(nèi)容。右側(cè)的例子是視頻上色,輸入一段黑白視頻,輸出一段彩色視頻。
這頁(yè)里的幾個(gè)例子是視頻到其他模態(tài)數(shù)據(jù)的轉(zhuǎn)換。比如視頻封面,給一段視頻找到最具代表性的視頻幀作為封面來(lái)提升視頻點(diǎn)擊量,這個(gè)是視頻到圖片的轉(zhuǎn)換。左側(cè)第二個(gè)例子是為視頻生成標(biāo)題和彈幕,這個(gè)是視頻到文字的轉(zhuǎn)換。第三個(gè)例子是視頻配樂(lè),我們可以到曲庫(kù)中找到與一段視頻最相襯的背景音樂(lè)。最右邊的例子是使用Structure from Motion進(jìn)行三維重建,給一段視頻,生成視頻中拍攝對(duì)象的三維網(wǎng)格模型。
剛才介紹的幾個(gè)和視頻相關(guān)的例子都來(lái)自于實(shí)驗(yàn)室的智媒平臺(tái)。這頁(yè)左邊的圖是OpenAI的工作,給一段文字,可以生成對(duì)應(yīng)段文字的圖片,比如這些圖片對(duì)應(yīng)的文字是:一張穿著西服的皮卡丘在看電視的圖片,生成圖片的質(zhì)量還是很不錯(cuò)的。右側(cè)是實(shí)驗(yàn)室為2021年的迪拜世博會(huì)做的水墨畫(huà)小程序,用戶輸入山脈的線條,可以自動(dòng)生成一幅水墨畫(huà)。你還可以輸出你的名字、昵稱、或者其他文字,算法會(huì)根據(jù)這些文字生成一首詩(shī)。算法還會(huì)從曲庫(kù)里選擇一首合適的音樂(lè)作為你創(chuàng)作的這副圖片的背景音樂(lè)。
有很多算法可以用無(wú)中生有的方式來(lái)創(chuàng)造內(nèi)容。最有名的可能就是StyleGAN,可以把一段噪聲信號(hào),轉(zhuǎn)化生成非常高清的人臉圖片。類似的,也可以生成一段音樂(lè),感興趣的朋友可以搜索一下AIVA,一個(gè)AI作曲算法,網(wǎng)上有很多AIVA的作品。右側(cè)是實(shí)驗(yàn)室的算法寫(xiě)的歌詞,可以為作詞者提供一些創(chuàng)作靈感。
好的,這就是我要分享的全部?jī)?nèi)容,感謝大家的聆聽(tīng)!右側(cè)是剛才介紹的水墨畫(huà)小程序,感興趣的朋友可以掃碼玩一玩。
講師招募
LiveVideoStackCon 2022 音視頻技術(shù)大會(huì) 上海站,正在面向社會(huì)公開(kāi)招募講師,無(wú)論你所處的公司大小,title高低,老鳥(niǎo)還是菜鳥(niǎo),只要你的內(nèi)容對(duì)技術(shù)人有幫助,其他都是次要的。歡迎通過(guò)?speaker@livevideostack.com?提交個(gè)人資料及議題描述,我們將會(huì)在24小時(shí)內(nèi)給予反饋。
喜歡我們的內(nèi)容就點(diǎn)個(gè)“在看”吧!
總結(jié)
以上是生活随笔為你收集整理的李松南:智能全真时代的多媒体技术——关于8K、沉浸式和人工智能的思考的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 音视频技术开发周刊 | 224
- 下一篇: 什么是闭合GOP和开放GOP?