视频内容理解在Hulu的应用与实践
對于一家在線視頻服務(wù)公司來講,理解視頻的內(nèi)容其重要性不言而喻。只有深度理解用戶觀看的內(nèi)容到底是什么,才能更好地給用戶提供個性化的內(nèi)容推薦、更好的交互體驗(yàn)等產(chǎn)品服務(wù)。
Hulu自2016年開始系統(tǒng)性地在視頻內(nèi)容理解方面展開研究,從視頻切分、人工合成元素抽取、視頻標(biāo)簽生成、精彩片段分析等等課題入手,通過構(gòu)建AI系統(tǒng)平臺來支撐視頻數(shù)據(jù)的生成和處理,在對業(yè)務(wù)及產(chǎn)品的支持方面也多有探索,從中也積累了一些經(jīng)驗(yàn)。
Hulu首席研究主管、視頻內(nèi)容理解和創(chuàng)新孵化團(tuán)隊(duì)負(fù)責(zé)人謝曉輝在ArchSummit全球架構(gòu)師峰會2018北京站上分享了Hulu在視頻內(nèi)容理解領(lǐng)域所作的探索和應(yīng)用,以下是他演講的全部內(nèi)容。
演講主要分為四個方面。首先會對Hulu上的視頻內(nèi)容的特點(diǎn)做簡單介紹;同時講一下Hulu為什么要去做這件事,以及做這件事所面臨的一系列挑戰(zhàn)是什么;然后介紹Hulu內(nèi)部對視頻內(nèi)容理解的支持和與此相關(guān)的技術(shù)架構(gòu)調(diào)整;在這個基礎(chǔ)架構(gòu)的支持下,我們做了很多研究嘗試,今天會給大家詳細(xì)分享,在最后還會選擇其中兩個比較典型的例子給大家做介紹。
Hulu是一家全美資的公司。Hulu擁有較多的高質(zhì)量電影和電視劇,還有電視直播;這種電視直播不是簡單的把電視信號搬到網(wǎng)上,Hulu采取了一種創(chuàng)新的方式來處理電視的直播信號,通過把Live流做拆分,使得電視里面的許多內(nèi)容,用戶也可以像VOD一樣去進(jìn)行點(diǎn)播。
Hulu背后的母公司包括COMCAST、迪斯尼、福克斯,還有時代華納。除了這幾家母公司給Hulu提供強(qiáng)大的內(nèi)容支持之外,有超過五百多家的內(nèi)容合作伙伴給Hulu提供精彩視頻內(nèi)容,與此同時Hulu還有超過一千家的廣告商合作伙伴。有這么多的內(nèi)容提供商給我們提供內(nèi)容,如何控制內(nèi)容信息的質(zhì)量,是一個潛在的挑戰(zhàn)。
對于Hulu來說,希望用戶來到這個內(nèi)容平臺,可以一站式消費(fèi)高質(zhì)量的影視劇。Hulu目前支持的Live流超過一百多個,擁有的電影電視劇集超過三百萬。這些視頻的數(shù)量是非常豐富的,可能做深度學(xué)習(xí)的同學(xué)們都會非常高興看到我們有如此多的數(shù)據(jù)。
為什么要做視頻內(nèi)容理解?
在AI的大潮之下,Hulu除了擁有的這么多的數(shù)據(jù)之外,還有下面一些做內(nèi)容理解的原因分享給大家。
上面左邊第一幅圖是思科做的一個調(diào)查,視頻作為互聯(lián)網(wǎng)上的主導(dǎo)因素,每年還都在以一個非常大的速率增長。其次,圖二是李飛飛在17年CVPR 上對ImageNet競賽的一個總結(jié),在深度學(xué)習(xí)技術(shù)的支持下,對圖片分類和物體檢測方面是有突破性提升的,Top5的分類錯誤率一直在下降。另外一點(diǎn),我們當(dāng)時也觀察到,整個業(yè)內(nèi)有很多公司已經(jīng)把注意力由圖片聚焦到了視頻,尤其是以Google為領(lǐng)先。在16年的時候, Google發(fā)布的Youtube 8M,微軟的MSR VTT等,同期還有很多大學(xué)也發(fā)布了許多視頻數(shù)據(jù),例如國內(nèi)復(fù)旦大學(xué)的FCVID-LSVC數(shù)據(jù)集等。
以上是外部的一些因素,從Hulu內(nèi)部來講,也有非常多實(shí)實(shí)在在的產(chǎn)品或者業(yè)務(wù)需求。最為典型的例子,Hulu作為一家在線影視服務(wù)公司,最核心的一個問題,就是雖然擁有那么多的視頻資源,如何快速準(zhǔn)確的在有限的展示空間下推送給用戶。Hulu的用戶,無論是用手機(jī)也好,或者用Web端也好,還是在家里用電視也好,他所能瀏覽和觀看的展示窗口是非常有限的,這主要是因?yàn)槎嗝襟w資源的展示通常都是通過圖文混排的方式,而圖文混排在UI上是非常占面積的。一個用戶通常在瀏覽大概幾十個這種圖文混排的介紹之后,他就不太愿意再往下翻頁了。
因此,一套好的推薦系統(tǒng)對Hulu的重要性是不言而喻的,之前的推薦系統(tǒng)算主要是基于對用戶觀影行為分析的協(xié)同過濾方法,并沒有利用太多用戶所觀看的電視劇里面的內(nèi)容信息。雖然算法有時也會考慮利用一些簡單的分類標(biāo)簽,但實(shí)際上這距離準(zhǔn)確理解用戶真實(shí)的觀影興趣是遠(yuǎn)遠(yuǎn)不夠的。我們可以回想一下看電影的整個過程,看之前或許會聆聽其他人的推薦意見,但當(dāng)我們真正看完一部電影,一定是心潮澎湃或是有非常多個人想法的。無論是吐槽也好,感慨也好,你會發(fā)現(xiàn)這些感慨和他人推薦給你的理由沒有太多關(guān)系,這些感慨更多的是來自于豐富的電影信息和元素對我們的視覺和情感上的沖擊。如果我們可以準(zhǔn)確的提煉這些信息,那么用戶的觀看行為則可以退居次要的地位。
視頻內(nèi)容理解技術(shù)的挑戰(zhàn)
如上所述,有多方面的理由支持去做視頻內(nèi)容理解。但這里面同樣面臨很多挑戰(zhàn),我列了一下四個方面跟大家解釋。
一方面,盡管Hulu現(xiàn)在擁有超過兩千多萬的付費(fèi)用戶、數(shù)百萬的視頻資源,但大多數(shù)的數(shù)據(jù)并沒有標(biāo)注,對于機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)來說,沒有標(biāo)注的數(shù)據(jù),很多算法模型基本上是很難設(shè)計(jì)和優(yōu)化的。
其次,與國內(nèi)很多AI公司做視頻分析或視頻理解不同,比如視頻監(jiān)控,視頻數(shù)據(jù)都來自于真實(shí)的場景。但是對于Hulu來說,除了一部分真實(shí)場景的體育或新聞視頻,大量視頻節(jié)目發(fā)生的場景是虛擬的,例如卡通片、科幻片,包括一些怪物的形象、化妝或者帶面具的人等,整個視頻也是要給大家塑造一種非常新奇或者玄幻的感覺,這些影視劇中場景是虛構(gòu)的,里面的元素是新奇的。這對于擅長目標(biāo)識別和分類的AI算法來講是一大挑戰(zhàn),這些場景和新奇元素的數(shù)據(jù)量通常非常稀少且不易標(biāo)注,導(dǎo)致非常難準(zhǔn)確的處理。
第三,關(guān)于技術(shù)的難與易。如前面提到的,盡管深度學(xué)習(xí)給計(jì)算機(jī)視覺領(lǐng)域帶來了翻天覆地的變化,但這種變化很多是發(fā)生在圖片級別,當(dāng)我們把這個問題延伸到視頻領(lǐng)域的時候,發(fā)現(xiàn)問題并沒有被很好地解決。例如,檢測這個視頻里發(fā)生了一個什么樣的事件,講了一個什么樣的故事,傳遞了什么樣的情感,這個問題到目前為止都沒有很好的解決方案,恰恰這些信息對個性化推薦又極為重要。
第四,作為一家在線視頻服務(wù)公司,每年會花費(fèi)巨額資金去購買影視劇。如果它少買一部劇,節(jié)省下來的錢,有時甚至可以買一個創(chuàng)業(yè)公司了。那么Hulu有沒有沖動去買技術(shù)買數(shù)據(jù),放棄自己研發(fā)呢?對于這個問題,我們的結(jié)論是,Hulu肯定需要在某些數(shù)據(jù)和技術(shù)上實(shí)現(xiàn)自研。原因很簡單,因?yàn)锳I的很多技術(shù)是深度綁定業(yè)務(wù)邏輯的,這意味著技術(shù)架構(gòu)的升級和更新。單純買技術(shù),意味著公司可能會滯后于技術(shù)升級換代,而且很難和Hulu的產(chǎn)品深度融合。
為了更好的支持視頻內(nèi)容理解方面的工作,Hulu內(nèi)部也做了一些技術(shù)架構(gòu)上的調(diào)整。有多個開發(fā)團(tuán)隊(duì)參與來構(gòu)建AI的基礎(chǔ)架構(gòu)。我們在Hulu內(nèi)部構(gòu)建了一個AI平臺,大體上可以用三句話來解釋:共享的數(shù)據(jù)和存儲,共享的特征和共享的算法模型。
另外,視頻的內(nèi)容理解需要一套自動化的流程,從內(nèi)容提供商提供的新視頻到達(dá)Hulu開始,觸發(fā)AI算法生成數(shù)據(jù),到數(shù)據(jù)接入Hulu視頻處理的pipeline,服務(wù)于終端用戶。如上圖最左邊,在一個新的視頻到達(dá)Hulu做轉(zhuǎn)碼之前,我們會觸發(fā)在AirFlow上運(yùn)行的一個Job,然后通過Nimbus(Hulu內(nèi)部的 PaaS服務(wù)),觸發(fā)AI的算法調(diào)用;最右邊的FrameHouse支持把Hulu所有視頻做秒級別的幀拆分和存儲;通過AI算法引擎生成的數(shù)據(jù)最終會存儲在以內(nèi)容數(shù)據(jù)為中心的數(shù)據(jù)庫。
Hulu的視頻內(nèi)容理解工作
在講完內(nèi)部架構(gòu)的支持之后,來到今天我分享的重點(diǎn),我來介紹一下Hulu在視頻內(nèi)容理解方面的主要工作和嘗試。簡而概之,我們這兩年的研究重點(diǎn)是視頻元數(shù)據(jù)的生成,其中又可以把它分成三大類:
第一類是視頻的精細(xì)化切分。一個高質(zhì)量的影視劇視頻里面會包含很多人工編輯的元素或者痕跡,例如,鏡頭拼接的邊界、場景的邊界,片頭、片尾、背景音樂等等,我們首先需要把視頻進(jìn)行拆分,找到視頻中人工編輯或添加的視頻元素。
第二,在對視頻做了精細(xì)化切分之后,會對切分出的視頻片段進(jìn)行理解和自動標(biāo)注,并對部分內(nèi)容做視頻級別的標(biāo)注。
第三,基于對數(shù)據(jù)的充分理解和標(biāo)注,我們在內(nèi)容生成方面做了部分嘗試,包括生成各種Thumbnails,找到視頻非常精彩的地方,合成視頻摘要,亦或用AI算法生成一些音樂、avatar等內(nèi)容。
我接下來會詳細(xì)講我們在這塊做的一些工作,最后還會再舉兩個例子,具體解釋視頻內(nèi)容理解和元數(shù)據(jù)的提取是怎樣提升業(yè)務(wù)性能,擴(kuò)展業(yè)務(wù)能力的。
精細(xì)化切分
第一件事情是精細(xì)化切分。依照人工編輯的元素或者痕跡把一個高質(zhì)量的影視劇視頻拆開。這些元素或者痕跡包括,電影電視的分級標(biāo)記,片頭片尾、鏡頭邊界、燒錄的字幕、背景音樂,文字信息等等。有一些元數(shù)據(jù)內(nèi)容提供商會跟蹤視頻內(nèi)容一并發(fā)送給Hulu,但這不意味著不需要用算法再次處理,如之前提到的,Hulu擁有超過500家的內(nèi)容提供商提供內(nèi)容,元數(shù)據(jù)的缺失、質(zhì)量不一致的問題是普遍現(xiàn)象。例如下面的片尾檢測例子:
- 片尾自動檢測
國內(nèi)有些公司可能是通過人力來標(biāo)定片頭片尾的數(shù)據(jù),但是在美國,人工的成本是非常高的。同時在Hulu的平臺上,單靠內(nèi)容提供商提供的片尾標(biāo)記的數(shù)據(jù)的準(zhǔn)確率也是非常低的,5秒的誤差范圍內(nèi)準(zhǔn)確率只有百分之六十多,Hulu需要耗費(fèi)大量的人力去審核這些元數(shù)據(jù)。
因此我們首先想到是否可以用機(jī)器來自動檢測片尾的位置。片尾實(shí)際上包含多種情況,最簡單的片尾可能只是一個滾動的字幕,背景單一;稍微復(fù)雜一點(diǎn)的是由各種各種各樣的Logo組合起來的片尾;還有一種情況則是內(nèi)容和字幕混排一起出現(xiàn);比較難處理的情況是內(nèi)容還在播放,字幕是直接覆蓋在內(nèi)容的上面。經(jīng)過仔細(xì)討論和分析,我們最終設(shè)計(jì)了一套基于深度神經(jīng)網(wǎng)絡(luò)的方法,對每一秒級別的視頻幀做檢測,最后多幀融合,最終大家可以看到我們提出的Hybrid Deep CNN算法模型取得的片尾檢測準(zhǔn)確率是非常高的。
- Logo檢測
另一個例子是檢測視頻里面的logo,如上圖所示。Hulu面臨的挑戰(zhàn)是,如何快速的把數(shù)百個logo準(zhǔn)確的檢測出來。這在Hulu有實(shí)際的使用場景,原始的從內(nèi)容提供商提供的視頻文件通常是沒有channel logo的,Hulu根據(jù)獲得授權(quán)在不同channel播放時臨時插入對應(yīng)channel logo。但實(shí)際產(chǎn)品環(huán)境下,我們發(fā)現(xiàn)內(nèi)容提供商提供的視頻有大約10%已經(jīng)把logo燒錄進(jìn)去了,如果此時Hulu再在上面插入logo,給用戶帶來的觀看體驗(yàn)是非常差的。同時審核一個視頻是否帶有l(wèi)ogo的代價也非常高,logo會出現(xiàn)在視頻的任何一個位置,需要人工從頭到尾把視頻快速地過一遍,才能知道這個視頻里有沒有已經(jīng)燒錄進(jìn)去的logo。
我們在MobileNet上結(jié)合SE模塊,并采用反卷積SSD,來檢測logo是否出現(xiàn)以及出現(xiàn)的位置,并通過多幀的結(jié)果融合最終給出判決。在這個算法框架之下,我們還增加了一個基于傳統(tǒng)方法的logo預(yù)測模塊,用來預(yù)警未加標(biāo)定的新的live channel的logos。當(dāng)一個算法從來沒有見過的Logo出現(xiàn)時,我們會給內(nèi)容審核員發(fā)送提醒。
- 音樂檢測和分類
還有一個比較有意思的例子是檢測影視劇中出現(xiàn)的插曲,Hulu的視頻內(nèi)容質(zhì)量都比較高,這意味著視頻的插曲通常也非常好聽,很多人在看完視頻之后,會頻繁地回過頭來復(fù)聽那首插曲。我們的方法是首先把音頻做秒級別的切分,將音頻片段做頻譜分析,通過CNN對是否是音樂做判斷,最后在時序上找出完整的插曲片段;我們還會對檢測出來的插曲做分類,比如它是爵士樂,還是鄉(xiāng)村音樂;同時我們也會評估電影里插曲的質(zhì)量,有一些視頻里雖然有好聽的音樂,但是因?yàn)檠輪T可能正在大聲說話或者有非常嘈雜的其它聲音,這些音樂會被檢測出來并剔除出去。剛才播放的兩首音樂,第一首音樂是清唱的聲音,這說明CNN網(wǎng)絡(luò)學(xué)習(xí)到了音樂和歌唱的特點(diǎn)而并非只是學(xué)習(xí)到了樂器的特有音律。
視頻標(biāo)簽
講完視頻的精細(xì)切分之后,我們做的第二件事情就是對切出來的視頻,從鏡頭或者場景級別給它打標(biāo)簽做分類。如同之前提到的挑戰(zhàn),盡管Hulu內(nèi)部會做一些標(biāo)注,同時也會利用第三方的公司幫我們標(biāo)注,但是這個數(shù)據(jù)量還是遠(yuǎn)遠(yuǎn)不夠的。因此我們也會借助一些學(xué)術(shù)界的公開數(shù)據(jù)集,通過transfer learning把模型的結(jié)果在Hulu的數(shù)據(jù)集上fine tune,并做進(jìn)一步的算法加工去做標(biāo)注。
上圖是一個示意圖,每個算法可能運(yùn)行在不同的數(shù)據(jù)集上,并可能只能處理某一類標(biāo)簽,這些標(biāo)簽結(jié)果會將其映射到Hulu自己定義的分類系統(tǒng)上,最終經(jīng)過算法質(zhì)量評估、標(biāo)簽融合和算法融合生成一個最終標(biāo)簽結(jié)果。
上圖是一個更細(xì)致的處理流程。首先第0步是公司內(nèi)部定義了一套Hulu自己的分類標(biāo)簽系統(tǒng),這個分類系統(tǒng)可以盡量涵括現(xiàn)在及未來可能的產(chǎn)品、開發(fā)以及數(shù)據(jù)分析團(tuán)隊(duì)的需求。有了標(biāo)簽系統(tǒng)之后,當(dāng)我們在某個特定數(shù)據(jù)集上設(shè)計(jì)并訓(xùn)練得到一套還不錯的算法時,比如說基于Places365,我們首先需要把Places365本身的標(biāo)簽列表映射到Hulu的分類系統(tǒng)上,這樣做的目的是避免不同標(biāo)簽列表帶來的同義詞、語義相關(guān)等問題,并對后期的特征融合提供支持。
每一個加入到系統(tǒng)中的新算法,都需要一個算法評估模塊,這主要是由于算法遷移到Hulu影視劇的場景下后,算法的整體性能可能會下降,有很多標(biāo)簽的識別效果變差,我們需要知道算法整體的質(zhì)量,并衡量和評估其每個標(biāo)簽的識別質(zhì)量到底如何,應(yīng)該以怎樣的方式去融合該算法的識別結(jié)果。同時,當(dāng)系統(tǒng)有多套算法生成結(jié)果時,我們還需要去做多算法源、多模態(tài)的信息融合。比如來自視覺、音頻和對話(字幕)均分別檢測出有槍、槍聲和槍殺等相關(guān)標(biāo)簽,那么如果判斷該場景下標(biāo)簽“槍擊”的置信度。
目前我們這套系統(tǒng)已經(jīng)解決了鏡頭和場景級別的標(biāo)簽生成問題,從鏡頭級別提升到場景級別,再提升到視頻級別,我們還需要另外一套標(biāo)簽和分類系統(tǒng)。通常鏡頭級別的標(biāo)簽比較偏事實(shí)和描述性的標(biāo)簽;視頻級別則通常是比較偏重于劇情,或者偏重于情感的標(biāo)簽,這種標(biāo)簽從底層的事實(shí)描述性標(biāo)簽提升上來,是一個非常難的問題,因?yàn)檫@里可能存在語義上的鴻溝。
在開始報告的時候也提到過語義鴻溝的技術(shù)挑戰(zhàn),Hulu目前也有一些早期的研究工作,如何基于視覺的理解生成視頻級別的標(biāo)簽。這里給大家看一些初步的結(jié)果。經(jīng)過大量的后處理工作,可以看到,一些documentary類型的節(jié)目,還有比如主題明確的一些節(jié)目,例如音樂選秀、飲食的、球賽、新聞等等的結(jié)果還是非常不錯的。
給大家看幾個例子,圖片中藍(lán)色的是美國一個比較大的第三方數(shù)據(jù)公司提供的標(biāo)簽,它的數(shù)據(jù)主要是人工標(biāo)注的,用來做參考。下面綠色的標(biāo)簽分成兩類,第一種是基于字幕和文字信息,一種是純粹基于視覺的結(jié)果。最左邊是一個廚藝比賽的節(jié)目,右邊是一個動畫片,下面是一個美國橄欖球賽的結(jié)果,看起來質(zhì)量生成的標(biāo)簽還說的過去。
內(nèi)容生成和視頻摘要
在對視頻做完標(biāo)簽以后,我們第三件重要的工作,就是做內(nèi)容生成。目前主要集中在如何找到視頻精彩的地方。比如,Hulu上非常多的運(yùn)動類節(jié)目(如籃球、足球、冰球等)為例,我們怎樣才能快速找到各種精彩瞬間,同時可以在進(jìn)度條上給用戶提示。在運(yùn)動類節(jié)目上,我們主要的方法主要是通過對回放的檢測,結(jié)合比分牌、歡呼聲、特定的動作等等特征的檢測,找到真正精彩的地方。
對于影視劇如何找到精彩的瞬間呢?由于每個人對精彩的定義不盡相同,我們會針對視頻的內(nèi)容找到多種類型的精彩瞬間,例如故事要點(diǎn),視頻里緊張的場景或者動作,主角出現(xiàn)的場景,重要的對白等等。這些片段的抽取也使得我們可以去做個性化的推薦。因?yàn)椴煌挠脩粝矚g看的精彩片段可能不一樣,比如女孩喜歡看一些非常感性的場景,男孩可能更喜歡看一些動作比較多的場景。
內(nèi)容生成還有一些有意思的應(yīng)用場景,比如我們有一個研究基于AI算法生成avatar的例子,你昨天晚上看了一部電影,你非常喜歡里面的一個主角,電影里他有些非常酷的動作,那么當(dāng)你第二天登錄Hulu的時候,你可以看到一個avatar的形象,同時在模擬主角的某個動作,可以給你帶來很多的回味。
內(nèi)容生成還有一些比較實(shí)際的例子,個性化的視頻封面。我們有那么多內(nèi)容提供商,每個內(nèi)容提供商在提供視頻的時候,也會同步提供很多的封面圖供Hulu使用,但這些封面圖通常已經(jīng)被加上了文字、片名等信息。由于Hulu有自己的UX風(fēng)格和布局,整個封面圖會有非常多自定義需求,比如什么位置最好不能出現(xiàn)人臉,什么位置可能會放置文字,如何剪裁比例看起來相對協(xié)調(diào)一些,如何保留圖片的用戶焦點(diǎn)區(qū)域等,還需要考慮到在不同的設(shè)備下的UX需求,AI算法是這方面的專家,因此我們內(nèi)部還設(shè)計(jì)了一套可以自動生成封面圖的方案。
實(shí)踐案例
講完前面的三個方面的工作之后,下面我舉兩個實(shí)例具體解釋視頻內(nèi)容理解和元數(shù)據(jù)的提取可以怎樣提升業(yè)務(wù)性能,擴(kuò)展業(yè)務(wù)能力的。
第一個例子是Contextual Ads,如上圖所示,可以理解為上下文相關(guān)的廣告。在Hulu對應(yīng)著三種具體的使用場景:
第一種場景是指,廣告商可以target其廣告到特定的視頻場景,比如防曬霜廣告可能喜歡陽光沙灘等相關(guān)場景。
第二種場景是指,廣告商可以避免target其廣告到某些視頻場景,比如保險公司可能并不希望在視頻里有車禍場景時推送人身保險的廣告,以避免負(fù)面的用戶體驗(yàn)。
第三種場景是指,在某些視頻內(nèi)容中避免推送特定的類型的廣告。這主要是部分Hulu的內(nèi)容提供商在提供內(nèi)容的同時會附帶一些條件,比如ESPN不允許在它的channel推送任何和運(yùn)動相關(guān)的廣告。再比如Source Park,這是美國的一部成人卡通片,它要求Hulu不能夠在上面插播任何與政治相關(guān)的廣告。因此我們不僅需要視頻內(nèi)容的場景標(biāo)簽,還需要對廣告視頻進(jìn)行標(biāo)簽分析,在滿足多方面要求的情況,尋求更好的廣告branding效果。
第二個例子,叫Content embedding,這也是我們公司內(nèi)部一個比較成功的項(xiàng)目之一。前面提及推薦系統(tǒng)對Hulu的重要性,那么內(nèi)容理解如何服務(wù)于推薦系統(tǒng)也是我們一直以來認(rèn)真思考的問題。我們希望把內(nèi)容相關(guān)的信息有效的利用起來,這些信息可以是各種標(biāo)簽數(shù)據(jù),包括演員誰、導(dǎo)演、摘要描述、字幕、以及一些Hulu買入的第三方標(biāo)簽數(shù)據(jù),還有從視頻內(nèi)容中提取的部分標(biāo)簽,我們通過Graph embedding的方法把所有元數(shù)據(jù)揉成一個vector,通過這個vector可以快速判斷視頻內(nèi)容的相似性,并與推薦算法進(jìn)行了深度融合。
在視頻理解領(lǐng)域,除了做這些與Hulu業(yè)務(wù)場景十分相關(guān)的應(yīng)用之外,Hulu也在希望通過公開部分?jǐn)?shù)據(jù)和Hulu面臨的挑戰(zhàn)性研究問題,推進(jìn)在視頻內(nèi)容理解方面的相關(guān)研究工作。我們在2017年的ICIP、2018年的ACM Multimedia上,分別舉辦了基于內(nèi)容理解的視頻相關(guān)性競賽,公司把研究問題、清洗過的數(shù)據(jù)公開出來,并期望與各個高校的老師、同學(xué)們以及我們的同行們大家一起來攻克這些研究難題。
嘉賓介紹
謝曉輝,Hulu首席研究主管,視頻內(nèi)容理解和創(chuàng)新孵化團(tuán)隊(duì)負(fù)責(zé)人,具有18+年算法研發(fā)創(chuàng)新和管理經(jīng)驗(yàn)。專注于模式識別、圖像視頻文本等多媒體信息處理,對人工智能、人機(jī)交互領(lǐng)域的研究以及成果落地和產(chǎn)品化有豐富經(jīng)驗(yàn),擁有100+相關(guān)專利申請,學(xué)術(shù)論文近20篇。本科畢業(yè)于西安交通大學(xué)實(shí)驗(yàn)班,北京郵電大學(xué)取得模式識別領(lǐng)域博士學(xué)位。曾先后就職于松下電器研發(fā)中心、諾基亞北京研究院、聯(lián)想研究院。主導(dǎo)研發(fā)的手寫計(jì)算器曾作為諾基亞旗艦機(jī)N97首發(fā)的市場賣點(diǎn)之一,在Lenovo主導(dǎo)研發(fā)了Horizon桌面PC的創(chuàng)新手勢交互算法,榮獲CES數(shù)項(xiàng)大獎等等。
總結(jié)
以上是生活随笔為你收集整理的视频内容理解在Hulu的应用与实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 易天教你如何保养SFP光模块
- 下一篇: hdu2121 Ice_cream's