跟随弹幕停不下来?智慧文娱还有哪些新玩法
一 修復(fù)版《士兵突擊》,幀享 60 幀的《重生》,你看了嗎?
回想 10 年前看士兵突擊的時候,29 寸電視機絕對是“大電視”。但是今天 40 寸、60 寸已經(jīng)非常普遍,甚至很多家庭直接使用投影儀看劇。尺寸越來越大,我們對清晰度的要求就越高。
如何讓視頻更清晰?今年年初優(yōu)酷聯(lián)合內(nèi)容制作側(cè)、終端消費側(cè)的產(chǎn)業(yè)鏈合作伙伴共同推出了一套超高清解決方案——幀享,從內(nèi)容創(chuàng)作、超高清重制、終端渲染等各個環(huán)節(jié)嚴(yán)格把關(guān), 精益求精,真正呈現(xiàn)出 “每一幀,都享受”的高水準(zhǔn)視聽效果。
《重生》是優(yōu)酷重磅打造的懸疑題材熱劇,很多的鏡頭和情節(jié)處理都非常適合疊加我們的高幀率和聲場技術(shù),所以,我們通過視頻超分辨率、視頻插幀、SDR 轉(zhuǎn) HDR,立體聲增強等技術(shù)手段,讓畫面細(xì)節(jié)更細(xì)膩、讓動態(tài)場景更順滑,讓聲場更立體,真正做到身臨其境的超爽視聽體驗,最重要的實現(xiàn)普惠,讓千元安卓機也同樣流暢看高清。
大家都知道,優(yōu)酷創(chuàng)立的時間很早,視頻庫中有很多老視頻資源,而老視頻資源中存在的最普遍問題就是噪聲和模糊。我們通過高清修復(fù)技術(shù),實現(xiàn)批量去噪、去模糊、去劃痕、去閃爍、去抖動、高幀率等能力,修補之外重新調(diào)色,用工業(yè)化方式解決老片修復(fù)問題。2006 年單機工作室修復(fù)一部兩小時左右的電影需要數(shù)十天甚至上百天的時間,現(xiàn)在通過異構(gòu)計算平臺,修復(fù)一部經(jīng)典電影到 4K 僅要 1 小時。比如 80 后的集體記憶:還珠格格、士兵突擊、家有兒女等都在修復(fù)后換新顏。
二 用優(yōu)酷追劇為什么不卡?
視頻高清了,如何不卡頓?視頻清晰度的選擇那么多,如何選擇剛剛好的模式?從地跌的“移動”網(wǎng)絡(luò)到家的 Wi-Fi 穩(wěn)定網(wǎng)絡(luò),如何能不麻煩的做轉(zhuǎn)換?
“智能檔”要解決的關(guān)鍵問題就是“高清不卡”,并且自動匹配合適的清晰度,這背后是自適應(yīng)碼率技術(shù)的支持。碼率自適應(yīng)技術(shù),并不是新技術(shù),在學(xué)術(shù)界早已有非常多的論文。但這樣一個成熟“學(xué)術(shù)”技術(shù),在真正大規(guī)模落地過程中,遇到了很多問題和挑戰(zhàn):
- 第一, 國內(nèi)用戶對這一功能很陌生,甚至覺得比較“傻”;
- 第二, 用戶評判“體驗好”的標(biāo)準(zhǔn)比較主觀,流暢和高清的平衡點難把握;
- 第三, 公開的算法框架的實際效果不理想。原因是特征緯度單薄,對實際細(xì)節(jié)考慮少。
在技術(shù)策略之外,我們主要想分享,如何將成熟的學(xué)術(shù)算法落地到工程業(yè)務(wù)場景:
- 第一,抓住算法框架的核心點,不要太在乎結(jié)構(gòu)性,要看算法解決的核心問題的切入點,和你要解決的是不是一個問題,是不是能借鑒;
- 第二,與大數(shù)據(jù)有關(guān)的算法,一定要關(guān)注好數(shù)據(jù)集的質(zhì)和量,結(jié)合自身業(yè)務(wù),積累高質(zhì)量的大量數(shù)據(jù);
- 第三,算法效果的度量標(biāo)準(zhǔn),結(jié)合業(yè)務(wù)場景來看,尤其是那些非標(biāo)準(zhǔn)化、不好量化的場景,避免生硬的套用已有標(biāo)準(zhǔn),畢竟你才是對問題最了解的人;
- 第四,像 AB 測試、大數(shù)據(jù) Pipeline 等工程系統(tǒng)能力,確實對產(chǎn)品技術(shù)的迭代效率提升是非常大的。
三 前方高能!基于人臉識別的跟隨彈幕來了
要高清不卡,還要參與互動。在追劇時,第一好看是劇情,第二好看是彈幕,而且有些劇里彈幕甚至比劇情還要精彩,比如上過熱搜的出自《東宮》的那一句“談戀愛嗎?滅你全族的那種”。正是由于這些神一般的網(wǎng)友頻頻曝出精句,讓某些劇集精彩程度翻了幾倍。
喜歡用優(yōu)酷看視頻發(fā)彈幕的同學(xué)應(yīng)該已經(jīng)發(fā)現(xiàn),很多劇都上線了基于 AI 人臉識別的跟隨彈幕,以往的普通彈幕或高級彈幕都是在播放器頂端自右向左以跑馬燈式的效果展示,而這種跟隨彈幕是以氣泡樣式掛在人物頭像旁邊,隨著人物移動而移動。這種跟隨彈幕可玩性更高,有才網(wǎng)友可發(fā)揮余地更大。
結(jié)合人物動作的玩法
結(jié)合人物所處場景的玩法
自編自導(dǎo)人物對話
從幾個視頻 demo 中可以看出,相比普通彈幕,這種跟隨彈幕是以一種類似劇中人物的內(nèi)心 OS 的方式展示出來的,與視頻無割離感,更有趣更新穎更精彩,有更多玩法。
人臉跟隨彈幕的架構(gòu)分成算法側(cè)、服務(wù)端、客戶端三層:
首先,算法側(cè)按每秒 25 幀的頻率進行視頻抽幀,對每一幀進行人臉識別,配合人臉跟蹤和平滑處理,生成每一幀的人臉元數(shù)據(jù);
其次,服務(wù)端將多個幀的人臉元數(shù)據(jù)通過降噪、防抖、合并后組合成一組組的人臉組數(shù)據(jù),將該數(shù)據(jù)與跟隨彈幕數(shù)據(jù)一起下發(fā)給客戶端;
最后,客戶端在互動 SDK 中將每組人臉數(shù)據(jù)生成一個腳本,腳本中完成彈幕跟隨該人臉軌跡的移動而移動。
劇中的人臉數(shù)據(jù)如果只應(yīng)用在跟隨彈幕中就大材小用了,下一步我們準(zhǔn)備把帶有人臉數(shù)據(jù)和人體數(shù)據(jù)的腳本做為基本腳本,后面除了跟隨彈幕腳本,還會有彈幕穿人腳本等等。后續(xù)客戶端這部分架構(gòu)可能會調(diào)整,方便大家通過外部注入等方式,構(gòu)建自己想要的腳本。
四 讓你自然美的實時直播美顏技術(shù)
看高清、發(fā)彈幕還是不過癮?那就來直播。在經(jīng)歷了在家上課,在家辦公之后,非常多的一線教師、職員、程序員都開啟了直播之路。打開攝影頭,心里有點發(fā)慌?實時直播美顏技術(shù),讓你1秒變美,而且是自然的美。
為達(dá)成人臉美顏效果,在技術(shù)上我們主要通過以下四個關(guān)鍵步驟來實現(xiàn):
其中,臉部美型處理主要包括臉型調(diào)整和臉部器官調(diào)整,核心步驟是基于人臉關(guān)鍵點通過圖像形變的形式來實現(xiàn)臉部各器官的形狀調(diào)整。圖像形變算法主要是局部扭曲算法和三角剖分,局部扭曲算法一般包括局部縮放、局部平移、局部旋轉(zhuǎn)等,如大眼功能即可通過局部縮放來實現(xiàn)。三角剖分的方法則是通過對三角網(wǎng)頂點進行平移,再將平移后的頂點更新到對應(yīng)的紋理坐標(biāo),通過 openGL 或者 D3D 進行繪制渲染,從而實現(xiàn)整個關(guān)聯(lián)三角網(wǎng)的變形。具體的臉部美型效果如下圖所示:
在性能方面,在 iphone 6 Plus 等中低端機型上,可實現(xiàn) 720p 24fps 實時人臉美顏;
在效果方面,通過對皮膚的處理,可使人臉皮膚達(dá)到白皙細(xì)膩的效果,同時主播可按照自己的喜好對臉部的任意器官進行調(diào)整。
目前人臉美顏功能已在來瘋直播(移動端和 PC 端)、優(yōu)來播移動端及淘寶直播 PC 端落地,來瘋移動端主播日均開播人數(shù)實現(xiàn)一倍增長。具體的人臉美顏效果如下圖所示:
五 優(yōu)酷酷看體驗:你猜老胡是臥底嗎?
細(xì)心的觀眾已經(jīng)發(fā)現(xiàn),優(yōu)酷視頻中出現(xiàn)了很多有人情味的“黑科技“,比如百科 tips、角色伴侶、劇情競猜等,讓用戶“邊看劇邊互動”,這就是優(yōu)酷的酷看模式。酷看模式在移動端采用了多路流的同屏展示、智能平滑切換、精準(zhǔn)同步和動態(tài)化渲染等技術(shù)。其中動態(tài)化渲染、子母屏和多路流同步播放是酷看模式在端側(cè)的核心能力,能夠做到多路流、多機位視頻幀級同步播放。
六 不知道看什么?多模態(tài)搜索來幫忙
與中午吃什么一樣傷腦筋,用戶打開視頻平臺,常常面臨一個難題是 “不知道看什么、不知道如何搜索”,針對這個痛點,文娛人工智能平臺提出了基于多輪對話式搜索系統(tǒng)。
交互式搜索系統(tǒng)采用模塊化的設(shè)計思路,按照分層邏輯結(jié)構(gòu),分為應(yīng)用技術(shù)層、核心技術(shù)層和基礎(chǔ)數(shù)據(jù)層。應(yīng)用技術(shù)層主要包括是自然語言理解(NLU)和對話技術(shù),其中 NLU 包括意圖理解(Intent Understanding)技術(shù)和成分分析((Slot Filling)技術(shù);對話技術(shù)包括對話管理(DM)以及對話生成(NLG)。核心技術(shù)層包括知識圖譜(Knowledge Graph)的構(gòu)建和推理應(yīng)用。基礎(chǔ)數(shù)據(jù)層是基于視覺技術(shù)的智能媒資庫。
用戶在視頻這個垂直領(lǐng)域,意圖和屬性槽相對比較明確,整體以有限狀態(tài)機的方法為基礎(chǔ),基礎(chǔ)動作遷移狀態(tài)以人工設(shè)計動作為主;模型的方法作為泛化能力,解決不確定場景的理解。
系統(tǒng)對話流程如下:
用戶說“我想看類似宮心計的電視劇”,系統(tǒng)通過語音識別(ASR)和自然語言理解(NLU)技術(shù)理解分析用戶想看‘宮斗劇’,通過檢索反饋給用戶‘宮斗劇’相關(guān)電視劇,并通過自然語言生成(NLG)技術(shù)主動和用戶作進一步的交互,得到用戶想看‘孫儷’主演的需求后,系統(tǒng)基于多輪對話管理(DM)技術(shù)將前后兩輪的用戶綜合理解,向搜索引擎發(fā)起再次檢索實現(xiàn)多輪交互。
七 視頻物體分割:在視頻中隨意“摳圖”
視頻物體分割(Video Object Segmentation,簡稱 VOS ),顧名思義就是從視頻所有圖像中把感興趣的物體區(qū)域完整的分割出來。為了方便大家的理解,先給出一個我們自己的視頻物體分割的結(jié)果。
阿里文娛摩酷實驗室從 2019 年 3 月底開始從事半監(jiān)督和交互式視頻物體分割算法的研究。
2019 年 5 月,我們完成一版基礎(chǔ)的半監(jiān)督視頻物體分割算法和交互式視頻物體分割解決方案,并以此參加了 DAVIS Challenge on Video Object Segmentation 2019,在交互式視頻物體分割賽道獲得第四名。
我們提出的 VOS with robust tracking 策略,可以較大幅度的提高基礎(chǔ)算法的魯棒性。在 Davis 2017 驗證集上,我們交互式視頻物體分割算法 J&F @ 60s 準(zhǔn)確率從 3 月底的 0.353 提高到 5 月初的 0.761。現(xiàn)在,我們的半監(jiān)督視頻物體分割算法也達(dá)到了 J&F = 0.763。可以說,在這個集合上我們的結(jié)果已經(jīng)接近業(yè)界一流水準(zhǔn)。一些分割結(jié)果示例如下:
八 數(shù)據(jù)反映的是真實的觀看體驗嗎?
看基于人類視覺感知的視頻體驗評價體系怎么回答:
隨著 4K 電視、HDR 技術(shù)、multi-view、free-viewpoint video、360 視頻、虛擬現(xiàn)實 VR、增強現(xiàn)實 AR 以及混合現(xiàn)實 MR 的發(fā)展,Qualinet 定義的 QoE 的概念可以無差別的直接應(yīng)用于這些多媒體載體上,所以在業(yè)界被廣泛采用并認(rèn)定其為標(biāo)準(zhǔn)定義。
為什么要做質(zhì)量評價?因為用戶的觀看體驗永遠(yuǎn)是第一位。而在整個視頻從獲取,處理,壓縮,傳輸?shù)阶詈蠼獯a,增強,播放的 pipeline 中,每一個階段視頻質(zhì)量的評估可以指導(dǎo)和優(yōu)化相對應(yīng)的算法實現(xiàn),進而實現(xiàn)每一個階段算法效果的提升,最終導(dǎo)致用戶觀看體驗的提升。這是我們的終極目標(biāo)。
阿里文娛摩酷實驗室依據(jù) ITU 國際標(biāo)準(zhǔn),搭建了自己的主觀測試平臺。
摩酷實驗室主觀測試流程
5G 的到來勢必顛覆用戶的觀看習(xí)慣和體驗。目前已經(jīng)出現(xiàn)的新型多媒體技術(shù),比如 Light-field Imaging, AR, VR, 360 VR, MR, High Dynamic Range (HDR), Free-viewpoint video, 以及 Autostereoscopic 3D 將會是未來 5G 時代的主流。以提高用戶多維度的感知體驗為目的下一代視頻內(nèi)容生成,視頻壓縮,視頻增強,depth estimation, view synthesis 等技術(shù)勢必需要質(zhì)量評價方法來做監(jiān)控。同時,這其中有可能產(chǎn)生的會引發(fā)觀眾視覺疲勞等危害身體健康的視頻更需要質(zhì)量評價方法去做前期評估預(yù)警。
九 豎屏看熱劇如何實現(xiàn)?
近兩年,隨著豎版視頻的流行和播放轉(zhuǎn)化效率,用戶對豎版視頻的消費需求越來越旺盛。針對這一需求,優(yōu)酷將基于機器視覺的視頻裁剪技術(shù)應(yīng)用于視頻二次生產(chǎn)和智能封面圖生成業(yè)務(wù)中,智能裁剪技術(shù)主要應(yīng)用于以多人或者單人為主體的場景,我們將目標(biāo)檢測,跟蹤,識別等技術(shù)進行創(chuàng)新和結(jié)合,開發(fā)了完整的視頻智能裁剪技術(shù)鏈路,面對實際業(yè)務(wù)中的主體標(biāo)定,視頻幀間抖動,視頻黑邊填充等問題針對性的研發(fā)了算法解決方案,可以根據(jù)不同的業(yè)務(wù)場景將各算法可插拔的配置進主裁剪 pipeline 中,視頻智能裁剪技術(shù)的研發(fā)給內(nèi)容行業(yè)的素材自動化制作,剪輯作品的視覺效果和制作成本降低等方面都帶來了大幅度的提升。
在視頻智能裁剪技術(shù)鏈路中,我們研發(fā)了前處理模塊(包含鏡頭切分, 畫面尺寸判定,黑邊檢測裁剪等),主體標(biāo)定模塊,主體追蹤模塊和后處理模塊(包含畫質(zhì)增強,字幕/logo 檢測,畫面內(nèi)容修補等)。
目前視頻智能裁剪技術(shù)生產(chǎn)的視頻和封面圖廣泛應(yīng)用于優(yōu)酷的各個場景,我們對視頻智能裁剪算法棧進行了整體性能優(yōu)化,達(dá)到處理時間僅 1:2 視頻時長,目前該技術(shù)累計對優(yōu)酷綜藝:演技派、這就是街舞、這就是灌籃;優(yōu)酷劇集:陸戰(zhàn)之王、天雷一部之春花秋月、微微一笑很傾城等百部 OGC 進行裁剪服務(wù),裁剪后的豎版視頻用于抖音,微博等外渠宣發(fā)和站內(nèi)投放,同時主體標(biāo)定算法服務(wù)于搜索雙列封面圖轉(zhuǎn)豎項目,鏡頭平滑算法服務(wù)于彈幕人臉項目。
十 推薦如何又好又準(zhǔn)?
如何為用戶推薦真正想看的視頻,這離不開對視頻內(nèi)容的理解,在個性化視頻推薦中,為了對視頻的內(nèi)容進行表征,一種常用的方法是給視頻打上多個標(biāo)簽,每個標(biāo)簽代表了一個視頻中的主要元素。優(yōu)酷過去的標(biāo)簽算法主要依賴于文本分析,當(dāng)視頻的文本元信息(標(biāo)題、描述、評論等)對主題的描述不明確時,我們常常無法分析視頻內(nèi)容。為了解決這一問題,我們采用文本、封面圖、音頻、視頻多種模態(tài)信息對視頻進行多標(biāo)簽分類,大大提高了建模的準(zhǔn)確率。從而提升推薦成功率。
多模態(tài)視頻多標(biāo)簽分類結(jié)果示例
當(dāng)然,音視頻模態(tài)面臨的一個嚴(yán)重問題是對于知識的提取能力有限,文本模態(tài)對于實體有更好的提取與推斷能力。在下面的例子中,音視頻模態(tài)會以更高的權(quán)重推斷「古裝劇」和「歷史劇」,而文本模態(tài)則會推斷「虎嘯龍吟」與「司馬懿」,最終的融合模型則可以融合兩者的優(yōu)勢獲得更完整的推斷結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的跟随弹幕停不下来?智慧文娱还有哪些新玩法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高能玩家!硬核自制小程序云“肝”动森
- 下一篇: Flink 实战:如何解决应用中的技术难