优酷在多模态内容理解上的研究及应用
作為4G、5G時(shí)代最豐富的信息承載媒介,視頻可以傳達(dá)出的信息量遠(yuǎn)遠(yuǎn)超過聲音、圖像等單一渠道,浩如煙海的視頻資源中蘊(yùn)含的大量信息也還遠(yuǎn)未被充分挖掘。對于視頻公司來說,如何將AI技術(shù)與海量視頻資源結(jié)合,將成為一個(gè)潛力巨大的研發(fā)方向,帶來的價(jià)值不可估量。在國內(nèi)AI領(lǐng)域,多模態(tài)技術(shù)的研發(fā)歷史雖然不久,但其帶來的價(jià)值早已得到了充分驗(yàn)證。
本文中,來自優(yōu)酷算法中心負(fù)責(zé)人王曉博將為我們解析,優(yōu)酷是如何利用多模態(tài)技術(shù),最大限度地挖掘視頻信息,創(chuàng)造更大的價(jià)值。剪片子又快又好、還能制作鬼畜視頻的AI視頻剪輯師到底是如何做到的呢?讓我們來一探究竟。
優(yōu)酷作為一家超過12年的視頻網(wǎng)站,其最大的數(shù)字資產(chǎn)便是存量數(shù)億的視頻,這不僅包括平臺購買的版權(quán)OGC視頻,更多的是用戶上傳的UGC視頻。視頻作為4G、5G時(shí)代信息最便捷的載體,給用戶帶來極大便利的同時(shí)也給各個(gè)互聯(lián)網(wǎng)廠商帶去了更大的挑戰(zhàn),富媒體信息的存儲、計(jì)算以及分發(fā)對比單一的文字信息要困難很多。
?
1?多模態(tài)分析技術(shù)簡介
模態(tài)是個(gè)專有名詞,在計(jì)算機(jī)信息處理的場景下,專指人接受信息的方式,包括視頻、圖像、文字、語音等不同的手段。多模態(tài)學(xué)習(xí)按照其所研究的問題大致分為如下幾個(gè)方向:
- 表達(dá)學(xué)習(xí):實(shí)際用途很廣,主要將多個(gè)模態(tài)的信息轉(zhuǎn)換為實(shí)值的向量,多用于召回、相關(guān)性計(jì)算以及預(yù)估特征
- 模態(tài)映射:影視劇中的劇情詳細(xì)描述如何能與視頻切片對應(yīng)起來,在跨模態(tài)檢索中應(yīng)用較多
- 模態(tài)對齊:將圖像中的實(shí)體與文字中的實(shí)體對應(yīng)起來,這在視頻語義檢索中十分有用
- 協(xié)同學(xué)習(xí):每個(gè)模態(tài)的標(biāo)注任務(wù)都很挑戰(zhàn)且成本高企,相對而言,文字模態(tài)的標(biāo)注成本是比較低的,而如何能夠在缺乏標(biāo)注信息的模態(tài)數(shù)據(jù)上利用其它模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練對于節(jié)省成本共享信息非常有幫助
2?典型應(yīng)用場景問題及挑戰(zhàn)
2.1?視頻搜索
信息檢索的技術(shù)發(fā)展已經(jīng)走過了幾十年,而視頻內(nèi)容檢索在企業(yè)里之前一直停留在關(guān)鍵字層面,主要檢索的信息來源是視頻的標(biāo)題和描述,與文章、網(wǎng)頁的檢索架構(gòu)區(qū)別不大,其原因除了技術(shù)上的挑戰(zhàn)外,還有用戶的需求通過關(guān)鍵字檢索基本能夠滿足。
圖 2優(yōu)酷業(yè)務(wù)構(gòu)成圖2呈現(xiàn)了目前優(yōu)酷的主要業(yè)務(wù)模塊構(gòu)成以及其搜索索引庫的內(nèi)容類型及品類,單純的基于標(biāo)題和描述作為被檢索文本會遇到如下困難:
- 用戶在上傳UGC內(nèi)容時(shí),常會寫“test“、”呵呵“這類無明確表意的詞,或者文字信息與視頻內(nèi)容不相符
- 用戶查詢詞意圖呈現(xiàn)出多元化,即使是版權(quán)視頻的搜索也不再集中于節(jié)目名字的搜索,社交與互動的需求逐漸增長
- 內(nèi)容二次創(chuàng)作型的的用戶對于視頻內(nèi)容語義檢索的訴求顯著增加,獨(dú)立檢索詞數(shù)量近兩年增長迅速
圖3是一個(gè)比較典型的視頻素材尋找類的查詢詞,圖中給出的搜索結(jié)果是基于文字模態(tài)來進(jìn)行的,明顯可以看出這與用戶的預(yù)期之間的差異,索引的內(nèi)容并沒有體現(xiàn)出對視頻內(nèi)容本身的理解。
圖 6多模態(tài)搜索實(shí)驗(yàn)效果近兩年深度學(xué)習(xí)在搜索推薦領(lǐng)域中得到了廣泛的應(yīng)用,我們不禁問自己一個(gè)問題,深度模型加向量化檢索是否可以解決掉多模態(tài)/跨模態(tài)的檢索問題呢?這里做過多年搜索的老兵都有一個(gè)清晰的認(rèn)知,搜索不單是一個(gè)技術(shù),更是一個(gè)業(yè)務(wù),用戶對于每一次搜索都有比較清晰的預(yù)期。學(xué)術(shù)界比較喜歡端到端的解決方案,但受制于可解釋性和可控性的問題,企業(yè)級視頻搜索引擎很少采用單一方案,比較可行的做法是將其它模態(tài)的信息通過降維轉(zhuǎn)換到文本模態(tài)。圖7是優(yōu)酷視頻搜索引擎的主體架構(gòu),主要包括以下幾個(gè)關(guān)鍵部分:
- 視頻理解與分析,對視頻內(nèi)容做細(xì)顆粒度拆解,將圖像、視頻動作、人物、聲音、背景音樂等信息通過檢測和識別等手段做標(biāo)簽化,通過上述手段完成對視頻內(nèi)容降維到文字模態(tài)的轉(zhuǎn)換
- 視頻內(nèi)容逐幀向量化,為保證召回兜底,采用query、視頻向量化處理,作為文字模態(tài)召回的有益補(bǔ)充
- 搜索查詢意圖識別,用戶在使用搜索時(shí)是有狀態(tài)的,不同上下文環(huán)境下同一個(gè)查詢詞表達(dá)的意圖不盡相同
- 搜索排序,排序?qū)τ谒阉饕媸莻€(gè)至關(guān)重要的模塊,既有算法技術(shù)的一面,更有業(yè)務(wù)屬性的一面,這里要兼顧平臺視角和用戶視角,單純的CTR優(yōu)先或者業(yè)務(wù)干預(yù)優(yōu)先都是不可取的,需要排序的設(shè)計(jì)者能夠從機(jī)制設(shè)計(jì)的視角來思考
2.2?視頻推薦
視頻網(wǎng)站對標(biāo)國際一線廠商的話,諸如Netflix和YouTube這些網(wǎng)站,推薦在其中都扮演著至關(guān)重要的作用,以Netflix為例,推薦系統(tǒng)貢獻(xiàn)了超過70%的視頻播放量,而在國內(nèi)的三家長視頻網(wǎng)站卻不盡然,推薦的占比都在三分之一以下。中國大陸的用戶和歐美的用戶不同,國內(nèi)的觀眾在電視劇上呈現(xiàn)出頭部過于集中的現(xiàn)象,這與內(nèi)容的供給方工業(yè)化程度低以及電視劇粗制濫造現(xiàn)象泛濫有直接關(guān)系,同時(shí)還受到主要電視臺、視頻網(wǎng)站的排播和宣推策略的影響。推薦和搜索類似,最擅長的是在信息爆炸的情境中解決信息過載的問題,如果視頻節(jié)目候選集合比較小的情況下,推薦是否就失去了用武之地呢?回答是否定的,如抖音、快手這樣的短視頻APP,因每天上傳量都超過百萬,甚至千萬,人力所不能及,只能采用機(jī)器算法分發(fā);但一部電視劇的宣發(fā)要面對的用戶也是超過億的量級,從貨找人的維度,人力也無法處理,如何高效的利用數(shù)據(jù)產(chǎn)生生產(chǎn)力對于長視頻網(wǎng)站也是一項(xiàng)核心競爭力。
圖8是目前優(yōu)酷推薦的算法架構(gòu),在視頻推薦的問題上如何提升用戶和推薦系統(tǒng)之間的信任度是我們面臨的核心問題,因此推薦系統(tǒng)的智能化在去年被提到很高的優(yōu)先級。從圖中我們可以看出,目前的主要召回方式分為如下幾種:
- 行為協(xié)同過濾,目前最主要的召回方式,由于版權(quán)視頻的頭部效應(yīng),這會導(dǎo)致更為嚴(yán)重的哈利波特現(xiàn)象
- 向量召回,也是一種被視頻網(wǎng)站廣泛應(yīng)用的算法,不論是深度網(wǎng)絡(luò)模型還是圖嵌入方法都能夠有效的緩解推薦冷啟動的問題,但模型的可解釋性以及有監(jiān)督學(xué)習(xí)label的熱度集中效應(yīng)仍然是很有挑戰(zhàn)性的問題
- 標(biāo)簽召回,以前用途比較廣泛,但受制于準(zhǔn)確性的問題,目前多家廠商都在弱化這一路匹配;Netflix對于版權(quán)長視頻雇傭?qū)I(yè)內(nèi)容運(yùn)營來標(biāo)注content codes,在候選集不大的情況下比較好的解決了標(biāo)簽準(zhǔn)確性的問題
圖9給出了基于多模態(tài)分析技術(shù)的視頻打標(biāo)簽示例,從這個(gè)例子我們可以看出,基于視頻、音頻、文字多個(gè)模態(tài)可以顯著的提升標(biāo)簽分類的準(zhǔn)確率,其缺點(diǎn)就是計(jì)算量較大,多個(gè)模態(tài)端到端的融合學(xué)習(xí)是一個(gè)技術(shù)難點(diǎn)。
2.3?視頻數(shù)字資產(chǎn)化
目前各個(gè)視頻網(wǎng)站處理視頻數(shù)據(jù)的顆粒度多數(shù)情況下都是video本身,能通過深度模型、圖模型等方法學(xué)習(xí)出一個(gè)video vector來刻畫視頻特征空間是近年來新興起的一種向量化方法。然而這對于視頻媒資庫的智能化需求而言是遠(yuǎn)遠(yuǎn)不夠的,內(nèi)容的二次創(chuàng)作、三次創(chuàng)作對于視頻內(nèi)容的解構(gòu)有很高的要求,內(nèi)容理解和拆解的顆粒度決定了智能媒資庫對于視頻業(yè)務(wù)的新價(jià)值。
圖 10視頻解構(gòu)分析及再生產(chǎn)上圖給出了智能媒資系統(tǒng)的兩個(gè)主要技術(shù)應(yīng)用,分別是視頻多維解構(gòu)分析和視頻智能生產(chǎn)。
2.3.1?元素級解構(gòu)
這里推薦大家閱讀《STORY故事:材質(zhì) 結(jié)構(gòu) 風(fēng)格和銀幕劇作的原理》這本書,好的視頻內(nèi)容,無論形式是長還是短,其拍攝的時(shí)候都是有邏輯洞現(xiàn)的。而視頻內(nèi)容解構(gòu)在一定程度上可以看做是拍攝過程的逆過程,即逆向工程(Reverse Engineering)。從一個(gè)完整的視頻且分出不同的片段,進(jìn)而到鏡頭、關(guān)鍵幀、關(guān)鍵元素,這些能夠形成一個(gè)樹形結(jié)構(gòu)(或者網(wǎng)狀結(jié)構(gòu)),每個(gè)圖中的元素都是一個(gè)節(jié)點(diǎn)。針對視頻形式、題材的區(qū)別,內(nèi)容運(yùn)營產(chǎn)品會構(gòu)建不同的領(lǐng)域模型來指導(dǎo)解構(gòu),常用的模式如時(shí)間、地點(diǎn)、場景、任務(wù)、動作等等。
圖 11元素級解構(gòu)分析 圖 12接吻動作分析圖11和圖12分別給出了元素結(jié)構(gòu)分析的框架示意圖以及動作識別的例子,以表情識別為例,單純的依賴圖像這個(gè)模態(tài)是很難將準(zhǔn)確率提升上去的,這也是人維度相關(guān)識別算法的一個(gè)難點(diǎn),而引入聲音這個(gè)模態(tài)就可以比較有效的幫助算法模型提升精度。2.3.2?視頻自動生成
當(dāng)視頻內(nèi)容被拆解為細(xì)顆粒度的要素之后,智能媒資庫才可能賦能視頻生產(chǎn),甚至視頻原生廣告。視頻的全自動生成是一件很有挑戰(zhàn)的事情,而內(nèi)容的剪輯創(chuàng)作是機(jī)器目前比較難于勝任的工作,但是素材的搜索和推薦卻是提效視頻創(chuàng)作的有效手段。我們很多PGC合作伙伴在進(jìn)行影劇綜漫周邊視頻制作時(shí)都苦于視頻元素的尋找和剪輯,而視頻解構(gòu)技術(shù)恰好可以賦能這一過程。
Netflix于2018年公布了一項(xiàng)很有意思的工作,即電影個(gè)性化海報(bào)推薦,其原理就是針對不同的用戶、不同的上下文選擇不同的海報(bào)素材來呈現(xiàn)同一部電影的推薦結(jié)果,他們利用了強(qiáng)化學(xué)習(xí)相關(guān)的策略來做分發(fā)提效,目的是提升視頻的點(diǎn)擊率。而優(yōu)酷這邊碰到的缺是新的問題,全站有上萬部存量電視劇、電影,為它們專門制作海報(bào)投入太大,網(wǎng)上能夠抓取到的海報(bào)圖往往比較陳舊,對用戶的吸引力也大幅度減弱。因此,能否自動給這些視頻生成海報(bào)圖變成為了一項(xiàng)很有業(yè)務(wù)和技術(shù)挑戰(zhàn)的課題,優(yōu)酷算法中心的工程師和達(dá)摩院的科學(xué)家一起進(jìn)行了深入研究,初步拿到了一些結(jié)果。
圖13、圖14都來自于優(yōu)酷和達(dá)摩院在NeurIPS 2018 Workshop of Video Understanding in Youku的分享,封面圖的生成來源于對內(nèi)容的準(zhǔn)確分析和解構(gòu)。
3?對未來的展望
優(yōu)酷未來在多模態(tài)方面的規(guī)劃
視頻內(nèi)容的理解對于采、制、宣、發(fā)、播這五個(gè)核心業(yè)務(wù)環(huán)節(jié),視頻的搜索交互形態(tài)也會呈現(xiàn)出多元化的模態(tài),且視頻本身的元素化結(jié)構(gòu)將會極大的助力內(nèi)容再次創(chuàng)作,賦能給PGC生態(tài)。我們將在如下幾個(gè)方向上持續(xù)加大投入:
視頻解構(gòu)分析與智能生產(chǎn)
交互式動態(tài)視頻技術(shù)
端到端的多模態(tài)視頻理解與分發(fā)算法
基于視頻理解的內(nèi)容評估技術(shù)
多模態(tài)對話式搜索技術(shù)
多模態(tài)技術(shù)未來發(fā)展
好的視頻內(nèi)容是能夠激發(fā)觀眾的情感共鳴的,而很多用戶追劇、看電影的動力之一就是分享感動和快樂,如何能夠在移動時(shí)代抓住用戶的碎片化時(shí)間和整塊娛樂時(shí)間是各個(gè)視頻網(wǎng)站爭奪的焦點(diǎn)之一。近年來深度學(xué)習(xí)在多媒體數(shù)據(jù)上的突破性進(jìn)展給多模態(tài)內(nèi)容理解帶來了新的機(jī)會,如何能夠讓機(jī)器“看懂“視頻內(nèi)容將會是視頻網(wǎng)站核心技術(shù)的制高點(diǎn)之一。
- 多模態(tài)搜索推薦會成為視頻信息獲取的重要趨勢,而向單一的文字模態(tài)做降維僅僅是開始,探索更為通用的端到端檢索模型仍是需要解決的難題
- 隨著互聯(lián)網(wǎng)電視走入越來越多的家庭,圍繞電視這個(gè)共享屏幕,更自然的多媒體交互方式將會極大的促進(jìn)跨模態(tài)信息檢索的研究
- 基于多模態(tài)內(nèi)容分析解構(gòu)技術(shù)的智能媒資庫逐漸會成為視頻網(wǎng)站、電視臺、甚至企業(yè)內(nèi)部平臺的標(biāo)配,這將會是一個(gè)很大的to?B市場空間
- 目前短視頻網(wǎng)站中占比較高的PGC二創(chuàng)視頻生產(chǎn)逐漸會被AI取代,甚至智能算法可以生產(chǎn)出類似鬼畜類這樣的視頻,極大地提高生產(chǎn)效率
多模態(tài)內(nèi)容理解作為一項(xiàng)逐漸走出學(xué)術(shù)象牙塔的技術(shù),未來會在視頻業(yè)務(wù)中扮演著越來越重要的角色。
作者介紹
王曉博,阿里大文娛集團(tuán)資深算法專家,優(yōu)酷算法中心負(fù)責(zé)人。2010年博士畢業(yè)于北京航空航天大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)挖掘方向,先后在百度、搜狗商務(wù)搜索部門從事算法策略研發(fā)工作。2015年加入阿里組建猜你喜歡算法團(tuán)隊(duì),將猜你喜歡打造為手淘第一大導(dǎo)購場景,成為淘寶平臺導(dǎo)購流量分發(fā)的核心入口。2018年起負(fù)責(zé)優(yōu)酷算法中心,組建認(rèn)知實(shí)驗(yàn)室,推出了多模態(tài)搜索推薦引擎、視頻理解與智能生成平臺等系列產(chǎn)品。主要研究方向?yàn)榇笠?guī)模分布式機(jī)器學(xué)習(xí)算法、多模態(tài)交互搜索推薦系統(tǒng)、算法博弈論。
福利推薦
王曉博老師將在 QCon北京2019 的**“人工智能技術(shù)”專題做題為“結(jié)構(gòu)化視頻分析算法與應(yīng)用”**的演講。該專題還有多位行業(yè)內(nèi)人工智能場景落地的專家,他們將多維度為大家呈現(xiàn) AI 對行業(yè)的改造,以及AI 升級帶來的產(chǎn)業(yè)碩果。目前大會門票 9 折火熱預(yù)定中,現(xiàn)在報(bào)名立減 880 元,團(tuán)購還可享受更多優(yōu)惠!點(diǎn)擊 「 閱讀原文 」或識別二維碼即可查看大會完整日程。席位有限,馬上拿起電話聯(lián)系票務(wù)小姐姐 Ring 吧:電話/微信:17310043226
總結(jié)
以上是生活随笔為你收集整理的优酷在多模态内容理解上的研究及应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL 复制 - 性能与扩展性的基石
- 下一篇: 重学JavaScript(1)--Jav