Hulu:视频广告系统中的算法实践
分享嘉賓:韋春陽 Hulu
編輯整理:Hoh Xil
內容來源:AI 科學前沿大會
出品社區:DataFun
注:歡迎轉載,轉載請注明出處
導讀:Hulu 是一家美國領先的互聯網專業視頻服務平臺,商業廣告是 Hulu 的重要變現手段之一。視頻網站中的廣告以擔保合約式品牌廣告為主,本次演講分享了機器學習、人工智能技術如何在 Hulu 的廣告系統中實踐落地,如何幫助廣告業務更加高效的運轉,介紹了包括精準廣告定向、廣告流量匹配、廣告庫存預估等項目中機器學習算法的應用實踐。
▌概述
首先介紹一下 Hulu 以及 Hulu 的廣告產品形態。
Hulu 是一家美國的提供專業視頻點播與直播的服務平臺,成立于2006年,目前由迪士尼控股,擁有近3000萬付費訂閱用戶,是全美用戶數量增長最快的流媒體平臺。
①?產品形態:點播,直播,回看等;
②?廣告形態:以視頻流中的15秒、30秒的視頻廣告短片為主;
③?廣告特點:
以品牌類廣告為主,品牌類廣告看重長期效果,品牌的曝光度,用戶認知等等;
采用 CPM?( Cost Per Mille,千次展示 ) 方式計費,即無論用戶是否點擊,按照展示次數計價;
以擔保式廣告訂單為主,廣告主希望其品牌曝光有一定量的保障,例如,某品牌希望在指定地區給指定用戶群投放指定的次數;
質量要求非常高,包括清晰度、創意、制作的精良程度等等。
上面簡單介紹了 Hulu 和 Hulu 的廣告產品形態,接下來介紹下廣告系統中我們主要面對的核心算法問題有哪些,以及算法發揮的主要作用。
廣告生態系統有三個核心要素:廣告主,用戶,媒體方 ( Hulu )?。每個要素都有自己的優化目標。
廣告主:
廣告主的核心優化目標是廣告的投放效率、有效性,以及?ROAS?( Return-On-Ad-Spend,廣告支出回報率 ),算法的主要應用為:
①?廣告定向:使用機器學習算法進行受眾定向、基于上下文的定向、lookalike 定向等;
② 訂單及價格優化:給廣告主一些訂單定向條件及價格的建議,使其在 Hulu 上更好的進行訂單的購買和投放;
③ 轉化率優化:越來越多的品牌類的廣告主也開始在意短期或者長期的轉化率,使用機器學習方法提高轉化率,把正確的廣告投給正確的用戶;
用戶:
對于用戶的核心優化目標是優化用戶體驗,盡可能減少廣告對用戶的干擾,給用戶更有連貫性的觀看體驗,算法的主要應用為:
① 個性化廣告:給用戶推薦更感興趣,更相關的廣告
② 情景式廣告:使用 AI 技術進行圖像音頻的識別、廣告創意的生成,為用戶帶來浸入式廣告體驗
③?個性化頻次控制:為用戶提供個性化頻次控制,避免重復及過量廣告為用戶帶來的反感
媒體方(Hulu):
最終的優化目標:廣告收入最大化,吸引更多的廣告商和用戶;與此同時我們也會進行生產環境的工作效率優化,算法的主要應用為:
① 庫存預估:這是在擔保式廣告里面是一個必不可少的環節,在售賣廣告以及做廣告預算時發揮重要作用
② 廣告流量匹配:對廣告訂單與用戶流量進行匹配,保證擔保式廣告能夠按時按量且均勻的進行投放
③ 定價策略優化:根據流量的熱門程度及售賣壓力,進行動態的定價,讓整個系統得到一個收入的最大化。
下圖總結了在 Hulu 的視頻廣告系統中的核心算法問題,也是我們研究員每天在做的事情:
①?廣告定向,涉及到:
預估模型:例如用戶標簽的補全,構建 lookalike 模型等等
主題模型:使用無監督方式挖掘用戶屬性
圖像識別技術:識別視頻內容中物體、場景、氛圍等等,投放上下文相關視頻廣告
② 庫存預估,涉及到:
時序預測算法:庫存預估一般被建模成時序預測問題
③?流量匹配,涉及到:
凸優化:使用凸優化進行離線流量匹配
自動化控制理論 ( PID Controller ):使用自動化控制理論進行線上動態調整
④?轉化率優化,涉及到:
CVR 預估模型
Casual Inference ( 因果推斷 ):使用因果推斷,得到一個更加公正、有效的指標來評估轉化是否有效。
Bandit/增強學習:使用 Bandit 以及增強學習的方式來解決廣告冷啟動的問題
⑤?程序化交易廣告,涉及到:
RTB ( Real time bidding ) 策略研究
流量預估/CVR 預估/投放節奏控制
⑥?用戶/廣告體驗分析,涉及到:
統計理論
Casual Inference ( 因果推斷 )
⑦?價格機制設計,涉及到:
博弈問題
增強學習
▌核心業務場景中的算法實踐
由于篇幅有限,這里著重講一下在三個比較核心的業務場景下,算法在 Hulu 廣告系統中的實踐與落地。
1.?Ad Targeting 廣告定向
廣告定向在品牌類廣告中,是最最重要的一個環節。
在 Hulu 的場景下,主要有三種類型的廣告定向:
① 上下文相關:例如用戶用的設備,在什么位置,在哪個頻道,看什么樣的視頻內容,插播廣告點前后的視頻內容是什么情景等等。
② 用戶相關:例如用戶年齡性別、用戶基本屬性以及根據用戶歷史行為挖掘出來的屬性等。
③ 用戶廣告交互相關:
Remarketing ( 再營銷 ):例如投放廣告給最近訪問過廣告商網站的用戶,為他加深品牌印象;
Look-alike Targeting ( 相似訪客定向 ):投放廣告給與種子用戶相似的受眾,擴大受眾人數,以及挖掘具有潛能的用戶。
下面分別介紹一下針對這三種類型的廣告定向使用到的核心算法:
a. 用戶相關定向:
我們構建了用戶畫像系統作為用戶定向的基礎。底層是一個核心用戶平臺,負責用戶數據的管理,版本控制,每天的 ETL 等等。注入的數據來自三種數據源:
① 來自第三方數據平臺的用戶標簽、屬性,
② Hulu 自己本身的一些標簽,這里有兩類工作:
第一類是工作是標簽的補全,我們會用一些例如 XGBoost、DNN 的預測模型來對這些缺失標簽的用戶進行一個預估,得到用戶具有哪些標簽,以及概率是多少。
第二類是無監督模式,我們從用戶的歷史行為以及其他屬性中進行挖掘,挖掘出一些新的屬性出來,會涉及聚類、主題模型、user2vec 的方式來生成用戶的標簽。
③ 廣告商提供的用戶標簽,針對這種標簽最常用的就是進行 Lookalike 定向,我們會用機器學習的方式來進行預測,找到與種子用戶相似的用戶群體。
b.?上下文相關定向:
這里主要介紹一下 AI 在視頻內容上下文情景廣告中的應用。視頻廣告會插播在視頻內容播放前以及播放中, 投放與視頻上下文情節比較相關的廣告,會減少廣告對用戶的干擾,舉個例子:用戶當前所看的是婚禮視頻,如果此時投放的廣告是珠寶廣告,那就毫無違和感,甚至會激起用戶的購買欲望。另外,我們需要探測視頻中的的一些暴力血腥畫面,在這些地方不適合投放廣告。
這個問題的核心是使用圖像識別技術檢測出視頻每幀都出現了什么樣的實體、情景以及氛圍等。Hulu 結合業界的標準構建了自己的 Taxonomy 體系,分為情緒、物體、場景、位置以及聲音幾個大的分類。
簡要介紹一下圖像檢測大致流程:考慮到獲取大量數據樣本的人力物力成本較大,我們最開始會借助于公開數據集 ( 比如 Open Iamge、Places 365等 ),使用 Inception V3、VGG 等模型去生成一些標簽,接下來會根據 Hulu 的場景進行少量的人工標注,對模型進行 Finetune 以及使用多模型融合決定最終的標簽。
c. 轉化率優化:
雖然品牌類的廣告點擊率沒有那么重要,但是越來越多的廣告商開始和 Hulu 談,我把我的轉化數據給你,你幫我計算下我這次投放的轉化率是多少。這就帶來了另外一個問題,廣告商最終還是希望優化自己廣告的轉化率,所以我們最近開始了這方面的研究。目前開展的研究是基于 Hulu 自己的廣告的轉化率優化,Hulu 在自己的視頻里面也會放一些推廣新劇的廣告內容,例如一個15秒的預告,希望這些廣告能投放給正確的用戶,得到比較高的轉化率。這個問題被建模成為 CVR 預估的問題,根據投放數據以及轉化數據,通過機器學習來建模用戶看到廣告后的7天內、30天內的轉化率,再投放的時候把正確的廣告投放給正確的用戶。
轉化率優化中的特征 & 模型
特征主要分為三塊:
User related:基本的用戶屬性,如位置,活躍度,留存時間等,以及一些重要的歷史行為,比如曾經看過哪些內容,搜索過哪些內容,收藏過哪些內容。
Ad related:廣告本身的屬性,如行業、劇目本身的信息等等。
User-Ad:用戶這個廣告看過多少次了,通過多次投放使用戶加深印象。
模型方面我們目前使用了 DIN + FM 模型進行建模,同時也在探索更好的模型優化。
d. 廣告定向中不可忽視的問題:因果推斷和共享賬號
因果推斷
我們在評估廣告轉化率的時候,會考慮評估是否正確,廣告是否有效,舉個例子:假如有一群用戶,不論你對不對他投放廣告,他都會去買這輛車,如果把廣告投放給這樣的用戶,最后評估廣告的轉化率的時候會評估的非常高,其實廣告效果一般,因為你投不投他都會去買,其實是白白消耗了這次投放。這就需要引入 Casual Inference 作為評估指標,其核心思想是:評估這個用戶看這個廣告和不看這個廣告的收益分別是怎么樣,最后將兩者之間的差作為評估指標,使用 Doubly Robust Estimator 進行建模。除此,更加重要的問題是怎么根據 Casual Inference 作為目標去進行轉化率的優化,怎么找到這些廣告增益最大的用戶,然后把廣告投放給這些用戶。
共享賬號
接下來是用戶共享賬號的問題,例如:一個賬號,孩子晚上8點左右看動畫片,媽媽晚上10點左右看綜藝節目,爸爸周末看體育視頻,媽媽使用該賬號的時候,發現推薦的都是動畫片,找不到自己喜歡看的內容。這個在推薦以及廣告定向中都是非常重要的問題,例如有的廣告商,希望這個體育類廣告只推薦給家庭中的爸爸,如果是小孩和媽媽看是沒有效果的。
這個問題規劃到三個方面來解決:
① 探測這個賬號背后有多少個虛擬用戶
② 給每個虛擬用戶打上標簽,預測他的行為模式
③ 用戶來到 app 的時候預估是哪個虛擬用戶,推薦對應的廣告和內容
這個問題核心是一些聚類的算法和預估模型的問題,這也是我們目前正在解決的問題。
2.?Inventory Prediction 流量預估
流量預估在擔保式廣告中是非常重要的環節,廣告在售賣之前都要檢查是否有足夠多的庫存余量賣給廣告主,以保證售出的廣告都能夠保量完成投放。
問題簡單描述為:給定未來的一段時間,一些定向條件的組合,預估有多少廣告流量庫存。
這個問題可以建模成時序預估的問題,通常有以下兩個步驟:
第一步:用時序預估模型來預估總的流量是多少;
第二步:根據歷史分布把流量分配到不同的排列組合,不同的維度上。
Time Series Model
我們目前嘗試過以下三類模型:
第一個是ARIMA ( Autoregressive Integrated Moving Average model ),穩定時序預估中最常用的模型,第二個是來自 Facebook 的 Prophet 模型,第三個是 LSTM。
ARIMA 作為最為直接簡單的穩定時序預估模型,在我們的實驗中,在短期時序的預估準確率很不錯,但是對長期的預估相對來說就不那么穩定了。原因在于,以下一些因素都會影響到長期的廣告流量時序數據:
用戶增長的因素
季節性的因素
每周的波動
節假日和特殊事件
Prophe 模型是專門為具有這幾種特性的時序數據而設計的時序預估模型。
Prophet 把時序數據拆成了三部分:趨勢部分,周期性和季節性部分,節假日部分,每一部分會單獨做預測模型,最后合到一起得到最終的預測結果。
例如,上圖為 Prophet 模型產生的幾種因素的分解:左上角為趨勢,左下角為節假日,右邊為季度性,分別為每個月和每周的變化,可以觀察到淡季和旺季的變化。目前,我們采用的是 Prophet 模型,在 Hulu 的廣告流量預估問題上表現穩健。
3.?Inventory Allocation 流量匹配
流量匹配在擔保式廣告的投放環節發揮著重要的作用,保證所有廣告訂單都可以按時按量并且節奏均勻的投放完成。
流量匹配算法會分為以下幾個步驟:
第一步,把廣告訂單的投放目標拆分到每個小時,這個拆分會根據我們預估的流量和緊俏程度來進行分配;
第二步,進行 Offline Solving,把問題建模成一個二步圖匹配算法,然后使用優化算法進行壓縮解的求解;
第三步,進行線上調控,采用 PID ( Proportion Integration Differentiation ) 控制,根據真實的流量實時進行調控。
第一個步驟比較簡單,下面簡單介紹一下第二、三步中具體用到的算法。
在離線匹配中,我們把問題建模成一個二部圖匹配問題。
在廣告中最主要有 SUPPLY 與 DEMAND 端的兩個限制條件:上圖中左邊? SUPPLY 表示用戶帶來的流量,流量上會有一些標簽,表示用戶及廣告位的屬性,右邊 DEMAND 表示廣告商的訂單,訂單上也會有些屬性,比如投給男性,或者某個地區的;SUPPLY 與 DEMAND 之間的連線表示這個廣告位可以投放的廣告。SUPPLY 端的限制條件為最多只有這么多的庫存可以使用,DEMAND 端的限制條件為需要將每個廣告訂單都保量投放完成。
之后可以根據二部圖建模優化問題,求解目標是每個邊的權重,表示該流量以多大的比例分配給某個廣告訂單。
首先會將原始優化問題轉化為拉格朗日對偶問題,求解得到對偶變量 αj?和 βj,表示的分別是廣告的對偶變量和流量的對偶變量。根據最優解滿足 KKT 條件,我們可以只將相對數量級較低的廣告對偶變量 αj?記下來,提高存儲效率,線上再根據 KKT 條件計算 βj?和 xij。αj?可以被看做各個訂單重要程度影響因子,作為線上選擇訂單的權重。
但是這里還是存在一個問題,這里全部都是用的預估的流量和訂單來進行匹配,但實際上會發生一些變化。所以需要第三步,線上實時調控。第一可以保證適應真實的線上流量, 第二也可以進一步保證投放節奏的穩定性。一般使用 PID ( Proportion Integration Differentiation ) 控制技術,這是常用于機械、電氣系統中的一種應用非常廣泛的自動控制技術,分為比例調節、積分調節、微分調節這3項的調節,根據線上廣告真實投放的快慢來調控接下來應該投放的速度。
----------
以上就是今天的所有內容了,由于篇幅有限,計算廣告以及視頻廣告系統中很多涉及到的算法沒有辦法一一覆蓋,也有很多更有挑戰的算法問題亟待研究員和算法工程師們來一一解決。本篇文章作為拋磚引玉,歡迎同行進行探討指正。另外,對廣告算法感興趣、想要了解算法如何在商業化中落地、想要見證算法如何變現、想要解決具有挑戰性問題的同學,歡迎聯系:
chunyang.wei@hulu.com
嘉賓介紹
韋春陽,2012年從北京大學碩士畢業后加入 Hulu,目前擔任智能廣告算法團隊負責人。有7年的計算廣告領域的從業經驗,致力于利用機器學習、人工智能技術來推動 Hulu 廣告業務的發展,負責包括精準廣告定向、廣告流量匹配、廣告庫存預估、廣告轉化率優化等項目。
總結
以上是生活随笔為你收集整理的Hulu:视频广告系统中的算法实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: resource failed to c
- 下一篇: 大话 TCP/IP