视频内容理解在手淘逛逛中的应用与落地
隨著多媒體技術(shù)的發(fā)展,直播、短視頻、AR等多媒體內(nèi)容表現(xiàn)形式層出不窮,異彩紛呈。視頻內(nèi)容的理解在視頻生產(chǎn)感知,理解分發(fā)中有哪些應(yīng)用,為淘寶電商帶來哪些影響?本次LiveVideoStackCon 2021上海站我們邀請到了阿里巴巴淘系技術(shù)算法專家李曉波(籬悠)分享視頻內(nèi)容理解在手淘逛逛中的應(yīng)用與落地。
文 / 李曉波(籬悠)
整理 / LiveVideoStack
# 淘寶探索人貨場新形式的發(fā)展歷程
手淘一直在做商品的展示,這幾年,手淘商品展示模式一直在變化。1998年做文本,2005年進(jìn)入圖文時(shí)代,2017年進(jìn)入淘寶直播時(shí)代。發(fā)展到今天,手淘新的業(yè)務(wù)增長點(diǎn)在哪里?這里會涉及到以下幾件事:首先電商的表現(xiàn)形式也在不斷發(fā)展變化。友商像抖音、快手等內(nèi)容廠商的DUA規(guī)模、用戶時(shí)長都有快速增長;技術(shù)方面目前多媒體技術(shù)向內(nèi)容化、社區(qū)化方向蓬勃發(fā)展。基于以上幾個(gè)方面,手淘下一步要做以下幾個(gè)方向:升級傳統(tǒng)RGB直播的形式,從2.5D到3D再到AR形式做升級;手淘會探索內(nèi)容業(yè)務(wù)的的增長點(diǎn),從原來商品介紹轉(zhuǎn)至對內(nèi)容的介紹。當(dāng)然萬變不離其中就是通過多媒體形式做商品的表征。
# 逛逛的愿景
逛逛想要傳達(dá)的理念,第一傳達(dá)生活方式,例如構(gòu)造真實(shí)消費(fèi)的場景進(jìn)行購物;第二由于是真實(shí)的人,每個(gè)人都有自己的人設(shè),有自身人格化,希望逛逛產(chǎn)品傳遞人格化;第三逛逛產(chǎn)品不希望是高不可攀的,而希望是每個(gè)人都消費(fèi)得起、性價(jià)比高的產(chǎn)品。上述就是逛逛的愿景。
# 逛逛內(nèi)容業(yè)務(wù)面臨的問題
首先要有愿景做產(chǎn)品,最后落到技術(shù)上來看,面臨技術(shù)挑戰(zhàn)有以下幾個(gè)部分:
生產(chǎn)者角度上的問題是:一是逛逛以短視頻拍攝為主的產(chǎn)品,原來拍圖片生產(chǎn)成本低,拍視頻生產(chǎn)成本較高,需要選標(biāo)題、封面圖,做轉(zhuǎn)場使視頻生動有趣,做特效玩法(例如:張嘴、眨眼、口吐蓮花);二是視頻生產(chǎn)可以是視頻內(nèi)容的二次加工得來,那商品、場景、特效素材從哪里獲取?
平臺的角度上的問題是:所有生產(chǎn)的視頻匯集成在平臺側(cè),每日生產(chǎn)的視頻量是一個(gè)海量的數(shù)據(jù)。一是海量內(nèi)容參差不齊,如何對內(nèi)容的快速審核、挑出優(yōu)質(zhì)視頻內(nèi)容;二是內(nèi)容具有一定時(shí)效性。商品可以春夏秋冬賣一年,內(nèi)容也會有熱點(diǎn)信息,以及海量信息該如何進(jìn)行快速處理?三是手淘商品有完整的結(jié)構(gòu)化信息供運(yùn)營,視頻內(nèi)容的raw data信息如何進(jìn)行精細(xì)化運(yùn)營?
消費(fèi)者的角度上的問題是:每個(gè)人時(shí)間有限,除了工作,休閑時(shí)間刷刷抖音,看看逛逛的時(shí)間更加有限。另外對消費(fèi)者而言,信息海量,例如,手淘每天產(chǎn)生幾百萬短視頻,一個(gè)個(gè)看無法看完,如何形成消費(fèi)者內(nèi)容畫像、根據(jù)消費(fèi)者內(nèi)容畫像匹配合適內(nèi)容就是我們要解決的問題。
面臨上述三個(gè)問題,在算法上總結(jié)起來三句話:幫生產(chǎn),加快生產(chǎn)效率;提效率,在平臺上完成海量內(nèi)容的結(jié)構(gòu)化語義理解;促分發(fā),讓合適同學(xué)看見合適內(nèi)容。后續(xù)我將圍繞這些問題分享算法上解決上述問題的方式。
# 逛逛內(nèi)容視覺算法的整體技術(shù)架構(gòu)
內(nèi)容視覺算法分成兩塊:互動視覺和互動玩法來幫助內(nèi)容分發(fā);在內(nèi)容理解方面拆成四部分:智能生產(chǎn),智能審核,智能解鎖,內(nèi)容語義。本次分享重點(diǎn)講的是智能生產(chǎn)、智能審核、智能解鎖、智能語義。
01
智能生產(chǎn)
第一部分是內(nèi)容生產(chǎn)面臨的問題。
1.1 智能創(chuàng)作
智能生產(chǎn)上述提到了一些問題,在問題之下,分享一下解決方案。解決方案分為兩部分。
第一部分是提高視頻的發(fā)布效率,如何讓發(fā)布者更高效發(fā)布內(nèi)容,生產(chǎn)短視頻。自動生產(chǎn)一些濾鏡、標(biāo)題,自動生成一些可以打動人心的話題、自動調(diào)節(jié)色彩空間,提升視頻發(fā)布的成功率。
第二部分是素材再加工。將原始拍攝的視頻內(nèi)容拆散開來,將商品、人物從原始視頻中抽出。與智能模板,智能濾鏡等結(jié)合,二次加工成短視頻。
以上是智能生產(chǎn)這兩部分要做的整體介紹。其中涉及內(nèi)容很多,后續(xù)會挑選關(guān)鍵點(diǎn)講一下具體如何來做到。
1.2 視覺元素解構(gòu)
首先講到關(guān)于智能生產(chǎn)中視覺元素解構(gòu)。對內(nèi)容重新編輯需要將原始內(nèi)容從原有視頻中拆出來。為了做到這些,我們構(gòu)建了一套完整分割體系,從最簡單的純色分割、類目分割到頭發(fā)分割、固定人像分割,到指甲、身體分割都可以將其分割出來。也就是說我們將商品或人從RGB信息中分離出來,后續(xù)根據(jù)商品的顏色和分發(fā)主題來搭配相應(yīng)顏色空間(智能濾鏡)等將其二次加工,快速生產(chǎn)想要的視頻。那么完整的分割體系是保證視覺元素分拆的重要一步。
1.3 話題生產(chǎn)
一是一個(gè)視頻在分發(fā)過程中如何打動別人。對于話題(這個(gè)視頻的內(nèi)容),可以用深度學(xué)習(xí)方案將用戶特征提取出來,打上個(gè)性化話題。
1.4 智能封面圖
二是在拍攝視頻過程中,如果沒有封面圖,那么視頻首幀就是封面圖。但會有幾個(gè)問題:視頻首幀無法完整表達(dá)視頻的整體含義;首幀容易黑屏、花屏。此時(shí)如何在拍攝的視頻中精選最能夠代表視頻含義的幀就是我們所要做的事情。
1.5 互動玩活
三是如果有了封面圖,并賦予它語義含義后,要將視頻變好玩,需要互動玩法。例如,在友商的一些產(chǎn)品中,有眨一下眼睛就會出眼淚;一笑就會出桃花。這些互動玩法就可以快速將短視頻變得生動有趣。而在這一板塊,我們提供了一整套2D、3D的特效玩法。
02
智能審核
講完了關(guān)于智能生產(chǎn)部分,第二部分分享智能審核。
2.1 OCR
一是OCR。整個(gè)視頻審核過程中是跨模態(tài)的,有語音信息、文本信息、視覺信息。在整個(gè)過程中,我們會把所有視頻、圖片含有的文字信息摘出,有了它可以做很多事情。上圖是整個(gè)OCR鏈路體系。基本流程和普通圖片OCR相似。
2.2 內(nèi)容去劣
二是有了跨模態(tài)信息,智能審核分為兩大步驟,第一步是內(nèi)容去劣,第二部是內(nèi)容擇優(yōu)。在整個(gè)視頻中出現(xiàn)抖動、二維碼LOGO不符合場景分發(fā)等情況時(shí),則會對內(nèi)容進(jìn)行降權(quán)。這一塊有60多種模型來解決內(nèi)容去劣的問題。
2.3 內(nèi)容擇優(yōu)
第二步是內(nèi)容擇優(yōu)。所有短視頻分發(fā)前都需要進(jìn)行人工審核,在有限人力下,如何將好視頻快速分發(fā)?內(nèi)容擇優(yōu)就是通過算法優(yōu)先找出相應(yīng)的優(yōu)質(zhì)視頻,找出后并不是直接分發(fā),而是優(yōu)先將其分配給人工進(jìn)行審核,保證優(yōu)質(zhì)視頻時(shí)效性,在最短時(shí)間在公域中流轉(zhuǎn)。上述就是內(nèi)容擇優(yōu)的內(nèi)容。封面圖不都是自己生成,會有用戶上傳封面圖,但其與內(nèi)容完全沒有關(guān)系。那么可以在擇優(yōu)模型中,從商品人物一致性,商品調(diào)性出發(fā),使用美學(xué)模型方法將優(yōu)質(zhì)視頻挑選出來。
03
內(nèi)容檢索
第三部分是關(guān)于內(nèi)容檢索方面。
3.1 原子能力
第一需要構(gòu)建完整內(nèi)容檢索的原子能力。最早在深度學(xué)習(xí)之前,運(yùn)用SIFT特征(SLAM中運(yùn)用ORB特征使之更快)把局部特征構(gòu)建成全局特征做檢索。深度學(xué)習(xí)后,全局特征很好提,那么局部特征怎么提呢?我們構(gòu)建了局部特征算子,整個(gè)檢索有局部和全局特征。構(gòu)建后做整個(gè)上層檢索,以文本搜圖片或視頻,以圖像搜視頻,以視頻搜視頻等各種應(yīng)用。檢索技術(shù)是通用的,但運(yùn)用場景不同,則上層會形成幾種產(chǎn)品:直播看點(diǎn),解決商品搜索過程;內(nèi)容去重,在整個(gè)視頻中會有很多重復(fù),調(diào)整分辨率幀率或是輕微裁剪,顏色空間變化,本質(zhì)上內(nèi)容一致,如何做內(nèi)容去重;明星識別,識別視頻中出現(xiàn)的人物,人物關(guān)系;視頻推薦,如何與視頻檢索結(jié)合。上述是內(nèi)容檢索中的原子能力。后續(xù)會圍繞著上層能力做詳細(xì)介紹。
3.2 內(nèi)容看點(diǎn)
第二是直播看點(diǎn),內(nèi)容看點(diǎn)。有很多用過淘寶直播的用戶知道回放時(shí)會有看點(diǎn)。它是在小的閉集上做商品檢索。過程如上圖:第一步是數(shù)據(jù)預(yù)處理,一段視頻中不是每幀信息都是有用的,將有用幀挑選出來;第二步是通用物體檢測,檢測出每段具體賣的商品,;第三步是時(shí)空軌跡/tracklet,在直播商品的過程中,主播賣的商品與時(shí)間前后和空間有關(guān),例如賣手機(jī),左手展示,商品展示與物理空間有關(guān);第四步是Query提取,從音頻信息到OCR信息;第五步是文本信息與視覺信息結(jié)合,進(jìn)行多模態(tài)提商品特征。第六步是在閉環(huán)內(nèi)對商品特征做檢索處理。
3.3 明星檢索
第三是明星檢索。在拍短視頻或整個(gè)直播過程中,出現(xiàn)哪些人,這些人是誰。也許不知道這個(gè)人的名字,但我們會給他Face ID,不管在哪個(gè)視頻中出現(xiàn),都會被完整提取出來。其核心在于一方面是多域聯(lián)合,另一方面現(xiàn)在支持的是千萬級別到億級別的,在lost function這一塊去做arcface loss。
3.4 內(nèi)容去重
第四是內(nèi)容去重。分享一下內(nèi)容去重需要解決的問題,淘寶有分傭機(jī)制。當(dāng)一個(gè)視頻可以返利時(shí),會有人盜取視頻并加入自己的商品鏈接。視頻中會進(jìn)行裁幀處理,分辨率變化等形變。我們需要將作弊的視頻檢索出來,以上是內(nèi)容去重需要做的事情。叫內(nèi)容不叫視頻的原因是現(xiàn)在我們對文本、圖片、視頻、帖子等形式的去重都支持。
04
內(nèi)容語義
講完了內(nèi)容檢索后,第四部分來分享一下我們在內(nèi)容語義方面做的事。
4.1 視頻分類
第一個(gè)最常用的是視頻分類。無論長視頻或短視頻都要進(jìn)行分類,這事情說簡單也簡單,說難也難,是因?yàn)橛泻芏嘁曨l在分類過程中,不一定是視覺可分。因此整個(gè)分類過程中是跨模態(tài)的,會把ASR信息或整個(gè)OCR信息聯(lián)合去做分類。往往分類不是分一級類目(搞笑、美食),一級類目下還有二級類目(美食下有潮汕美食、浙江美食、上海美食),在整個(gè)分類過程中,一級類目與二級類目聯(lián)合進(jìn)行分類,借助兩個(gè)分類之間的相關(guān)性,盡量減少不一致性。如果一級分類與二級分類相差過大,認(rèn)為這是有問題的,則會重新調(diào)整。通過兩級分類聯(lián)合相互監(jiān)督使之準(zhǔn)確率更高。
4.2 視頻標(biāo)簽
????
第二個(gè)是視頻標(biāo)簽。在整個(gè)視頻中分類比較有限,一般來說一級類目幾十種,二級類目一兩百種,除了分類信息,還可以打大量標(biāo)簽。這些標(biāo)簽如何產(chǎn)生,判別什么樣的標(biāo)簽是有意義的需要與各自業(yè)務(wù)結(jié)合起來(比如說說視頻中有一瓶水,里面有兩個(gè)人。打這樣的標(biāo)簽不一定是有意義的)。這需要和各自業(yè)務(wù)域結(jié)合產(chǎn)出有意義的標(biāo)簽。如果是安防產(chǎn)品,會對人或刀具或打架行為關(guān)心;如果是電商,則會對商品和出現(xiàn)的人比較關(guān)心。這里會有業(yè)務(wù)上的設(shè)計(jì),而有了業(yè)務(wù)上的設(shè)計(jì),跨模態(tài)理解最終會把想要的標(biāo)簽生產(chǎn)出來。
4.3 內(nèi)容向量化
第三個(gè)是內(nèi)容向量化。把語義理解后,需要與最終的搜索推薦系統(tǒng)結(jié)合,在結(jié)合時(shí)會有很多結(jié)合點(diǎn)。第一步將類目信息或Face ID整個(gè)傳輸給搜推,讓其做后續(xù)推薦。推薦時(shí)那一頁不可能都是你喜歡的那件商品,例如我喜歡手機(jī),但我打開搜推系統(tǒng)這一頁,不可能一屏全是手機(jī)或是我喜歡某個(gè)信息。這樣做的原因是搜推的需要有多樣性和新穎性。如果用戶搜了一個(gè)洗衣機(jī),那么如何將推薦打散?比如視覺方面,當(dāng)用戶輸入文本信息時(shí),會將視頻中的洗衣機(jī)標(biāo)簽提取,使洗衣機(jī)類目打散。
4.4 興趣圖譜
第四部分是興趣圖譜。每個(gè)視頻獨(dú)立成體系,這些海量視頻之間標(biāo)簽的關(guān)聯(lián)性是維度,可以匯集成視頻與視頻標(biāo)簽之間的關(guān)聯(lián)關(guān)系,是標(biāo)簽圖譜。另外一方面,一個(gè)人看了許多視頻,中間的關(guān)聯(lián)性和共通性可以通過標(biāo)簽、屬性形成基于個(gè)人內(nèi)容興趣圖譜。針對這一方面,由單個(gè)視頻上升到群體行為構(gòu)成整個(gè)視頻之間的標(biāo)簽圖譜或興趣圖譜,上述就是做興趣圖譜的事情。
4.5 認(rèn)識推理
第五部分是認(rèn)識推理。興趣圖譜構(gòu)建是個(gè)體與群體行為,群體行為分為兩個(gè)方面,看過的視頻與看視頻人之間的關(guān)系。
05
訓(xùn)練體系
逛逛算法模型不少。第五部分來分享一下訓(xùn)練體系。
5.1 訓(xùn)練體系
講訓(xùn)練體系的原因是在做標(biāo)簽、內(nèi)容時(shí),如果類別上到千萬級別,會遇到長尾問題,解決現(xiàn)有數(shù)據(jù)問題時(shí)會遇到小樣本問題。舉個(gè)例子,手淘中最不缺的是商品樣本;逛逛是做內(nèi)容的,不一定是商品。我們會發(fā)現(xiàn)內(nèi)容生產(chǎn)者為了點(diǎn)擊率生產(chǎn)軟色情內(nèi)容,在手淘中屬于小樣本。如果要做軟色情的識別分類器,會發(fā)現(xiàn)手淘中沒有很多樣本(因?yàn)槲覀儾皇巧鐓^(qū))。所以我們需要有一套體系根據(jù)樣本分布,如果有海量樣本,就需要用監(jiān)督學(xué)習(xí)來解決。把所有樣本花錢進(jìn)行標(biāo)注,標(biāo)的樣本越多,越精準(zhǔn)。但另一方面如果標(biāo)注的都是簡單的樣本,不一定可以隨著樣本量上升,精度會線性增長。找出難樣本有主動學(xué)習(xí)方式,同時(shí)也能節(jié)省標(biāo)注的經(jīng)費(fèi)。長尾的東西多半是小樣本,會有半監(jiān)督、自監(jiān)督方法、無監(jiān)督方法做體系,將整體分布訓(xùn)練做起來,會形成自己的訓(xùn)練體系去解決整個(gè)在逛逛中遇到的各種問題。
以上就是我關(guān)于逛逛算法分享的全部內(nèi)容,謝謝。
The cover from?creativeboom.com
講師招募?LiveVideoStackCon 2021 北京站
LiveVideoStackCon 2021 北京站(9月3-4日)正在面向社會公開招募講師,歡迎通過?speaker@livevideostack.com?提交個(gè)人及議題資料,無論你的公司大小,title高低,老鳥還是菜鳥,只要你的內(nèi)容對技術(shù)人有幫助,其他都是次要的,我們將會在24小時(shí)內(nèi)給予反饋。
總結(jié)
以上是生活随笔為你收集整理的视频内容理解在手淘逛逛中的应用与落地的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时音视频技术的演进与应用
- 下一篇: 广播IP转型报告:远程制作持续崛起