CIKM 2021 | 多场景下的星型CTR预估模型STAR
??摘要
阿里媽媽展示廣告需要為大量的場景提供廣告排序能力,在業務場景數急劇膨脹的背景下,我們開始研究多場景聯合建模。本篇文章主要介紹,我們在多場景建模下遇到的挑戰、挑戰背后的思考以及算法工程 co-design 的解決方案——多場景下的星型 CTR 預估模型 STAR。該項工作論文已被CIKM 2021接收,歡迎交流討論。?
論文下載:https://arxiv.org/pdf/2101.11427
??背景
隨著業務的演進,阿里媽媽展示廣告rank團隊需要在越來越多的廣告場景提供廣告排序能力,包括淘寶首頁猜你喜歡,購后(包括購物車訂單頁等八大場景),阿里系引流的各大活動場景以及對外部流量競價成功后的跳轉到淘內的廣告瀏覽頁面。
以往我們通常在各個場景單獨建模,之所以多場景聯合建模,主要是從算法和效能兩方面考慮。算法層面,各個場景獨立建模受限于數據量,長尾場景學習不充分,而簡單共享模型難以建模場景差異性;效能方面,我們需要考慮系統資源和人力成本限制。
多場景建模的一個難點是,不同場景分布不同,如何同時建模場景共性和差異性。具體來說不同場景具有用戶差異,即使是同一用戶,在不同場景下的心智也不同,頁面呈現的形式和內容,進入頁面前的用戶狀態也有很大的差異。這兩點反映在數據里的現象是,同一廣告在不同場景下的展現頻次、平均點擊率等均有較大的差別。也就是說,盡管不同場景之間的共性和關聯性可以共享信息,但與此同時,受產品形態和引流方式的影響,各場景也存在一定的差異性。
我們總結了多場景建模的三個挑戰:1)場景數多且存在長尾問題;2)不同場景樣本分布差異大;3)人力和資源的限制。我們的建模重點是有效利用場景間共性并建模不同場景差異性,同時打造一套兼顧效能,可快速迭代的建模體系。
??問題定義
現在我們形式化多場景建模這個問題,并與單場景 CTR 預估進行對比。傳統單場景 CTR 模型是對于樣本 x 進行預估,數據從單個場景中采樣得到,這背后的假設是樣本獨立同分布。但在多場景建模中,模型對于樣本 x, p 進行預估,其中 p 是 domain indicator。在多場景建模中,數據是從多個相關但分布不同的場景中采樣得到,樣本只在場景內獨立同分布。
和多場景建模很相似的任務是多任務學習,但這二者關注點不同。多任務學習解決相同場景/分布下的不同任務,而多場景建模解決不同場景/分布下的相同任務。例如:推薦場景下的多任務學習通常是單個樣本對于 CTR,CVR 等目標同時預估,而多場景建模是對不同場景樣本預估相同的 CTR 目標。直接采用多任務學習的方法解決多場景建模也會存在一些問題。
對于多場景建模,如果采用各場景獨立的方式,會忽視場景共性,導致長尾小場景難以學好,同時每個場景維護一個模型極大地增加系統資源開銷和人力成本;如果直接將樣本混合,訓練共享模型,會忽視場景差異性,導致預測準度下降。
??STAR
對于多場景建模問題,我們的核心想法是同時學習場景內特定行為和場景間的共性行為。沿著這個想法,我們提出了 STAR 模型,通過場景私有參數和場景共享參數同時建模場景差異性和共性。場景私有參數以及場景共享參數最終聚合得到每個場景的模型。STAR 的結構如下圖所示。
STAR 主要包含三部分,星型拓撲結構的全連接網絡(STAR Topology Fully-Connected Network),Partitioned Normalization 以及輔助網絡。我們接下來會依次介紹。
STAR Topology Fully-Connected Network
在STAR中,對于每一個FC層,都有中心的共享參數和場景私有參數,每個場景最終的參數通過二者進行element-wise product得到:
假設FC層的輸入是,那么輸出由下式計算得到:
通過這樣的實現方式,STAR的共享參數被所有場景樣本的梯度更新,學習場景共性,而場景私有參數只被場景內樣本更新,建模場景差異性。
Partitioned Normalization
為了加快模型收斂,現在很多 CTR 模型都會采用 BN。展示廣告之前的CTR模型中在 embedding 之后會過一層 BN,同時 FC 激活函數 DICE [2] 還會有BN。但是 BN 在多場景中會有一些問題,我們提出了 Partitioned Normalization(PN)。
回顧 BN,我們可以發現 BN 其實假設所有樣本 i.i.d. 并使用所有樣本的共享統計量進行normalization。但在多場景建模中,樣本只在場景內獨立同分布,使用共享統計量/參數混淆了分布差異,不利于更加精細的建模。
對此,PN 的解決方案是對不同場景采用私有統計量和可學習參數。具體來說,PN 累計 domain-specific 的滑動均值 以及方差 并且進行 domain-specific 的變換。
通過這種方式,PN 實現了對不同場景進行自適應的 normalization,保留場景差異信息,進行更加精細的建模。
Auxiliary Network
除了 STAR FCN 和 PN,我們還設計了一個 Auxiliary Network。我們認為好的多場景模型應該具備豐富的場景特征并能讓場景特征能夠直接影響最后的 pctr,學習場景差異性。因此,類似于 wide and deep 的做法,我們引入一個額外的小輔助網絡,將場景相關特征送進去,并將 auxiliary network 輸出與 STAR 網絡相加得到最終 pctr。這樣能夠讓場景相關特征直接影響最終預測值,捕捉場景差異性。
對比 MMoE
我們也注意到,業界很多技術部門采用了 MMoE 的方式建模多場景。其實在多場景建模問題上,STAR 相對 MMoE 更具優勢
MMoE 對不同任務采用獨立的 FC 層,缺少共享參數,而 STAR 的 FC 層共享參數可以學習場景共性行為。
MMoE 通過可學習 gate 隱式的建模場景間的關系,這樣會丟失顯示的 domain-specific 知識,而 STAR 引入場景先驗,通過場景私有/共享參數 而不是 gate 顯示建模場景間的關系,保留顯示的 domain-specific 知識(保留在場景私有參數內)。
MMoE 通過 gate,需要計算每個場景的 expert,相對共享模型 FC 層會有 M 倍的計算開銷 (M 為場景數,通常較大,在展示廣告下可達上百),而 STAR 稀疏激活的特性不引入額外計算,和原來計算開銷持平。
由于 gate 的學習存在冷啟動,MMoE 對于新場景不友好,而 STAR 更易于接入新場景,只需將新場景私有參數全初始化為1即可開始 fine-tune 接入,更加符合展示廣告場景動態變化的需求。
在離線實驗
我們在展示廣告生產數據集上進行了實驗,對比方法包括 Base (共享模型),Shared-Bottom, MulANN, MMoE, Cross-Stitch。實驗結果顯示,STAR 可以一致的提升各個場景的表現。我們也進行了 Ablation Study 分析了每個模塊的效果。
在真實生產環境的流式訓練環境下,我們重新設計了樣本管線,將樣本流拆分為多個場景,輪流輸出進行訓練,每個 batch 僅包含一個場景樣本。為了緩解不同場景流量高峰不同的 “蹺蹺板”效應,ODL 會緩存并 shuffle 樣本,確保每個時刻樣本分布不會發生突變。STAR 上線后,在不額外增加特征、算力、RT 的情況下,取得了 ctr+8% rpm+6% 的效果。
??Beyond多場景建模
“業務沒有多場景,STAR還能用嗎?”事實上,STAR 開啟的視角遠比多場景建模宏大,STAR 提供了一個混合多分布下的差異化精準建模方案。我們發現,推薦廣告樣本往往是多個子分布混合的數據,例如在電商場景下,男女用戶的點擊行為具有很大差異,不同場景下的用戶心智顯著不同。在這種混合多分布數據下,采用同樣的模型參數混淆了不同分布的差異,不利于更精細的CTR建模,而 STAR 恰好提供了一個混合多分布下的差異化精準建模方案,而場景是劃分樣本分布的一種重要方式。它把我們對通用建模中一些細微的、先驗認為具備特征間/樣本間差異性的信息,如場景,通過對應的輸入特征設計獨立的網絡結構,把d omain knowledge 變成網絡結構引入,實現更加精細的建模。我們實驗發現,STAR在不同樣本劃分方式均有一定提升,如用戶性別,年齡,廣告類目等均有 GAUC +0.2% 以上的提升。我們也期待后續有更多工作沿著這條思路走下去,構建“一人一世界”的模型。
References
Xiang-Rong Sheng, Liqin Zhao, Guorui Zhou, Xinyao Ding, Binding Dai, Qiang Luo, Siran Yang, Jingshan Lv, Chi Zhang, Hongbo Deng, and Xiaoqiang Zhu. 2021. One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction. CIKM 2021. https://arxiv.org/pdf/2101.11427
Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 1059–1068.
關于我們
阿里媽媽展示廣告核心算法團隊負責廣告系統的核心召回及排序算法迭代和創新研發,致力于利用人工智能前沿技術打造超大規模體量下的工業級深度學習框架和創新解決方案及相應的基礎設施。團隊在用戶興趣建模、深度樹匹配范式等技術持續深耕,并在工業級領域的深度學習框架上有著深厚的積累。近年在SIGKDD、SIGIR、NIPS、CIKM、AAAI等學術會議上發表多篇論文。歡迎感興趣同學加入我們~?
投遞簡歷郵箱:
alimama_tech@service.alibaba.com
END
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的CIKM 2021 | 多场景下的星型CTR预估模型STAR的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【阿里妈妈营销科学系列】第二篇:消费者行
- 下一篇: 【阿里妈妈营销科学系列】第三篇:受众沟通