推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估
MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(CIKM20)
點擊率預測是在線廣告系統中的一項重要任務。現有的工作主要針對單域CTR預測問題和模型方面,如特征交互、用戶行為歷史和上下文信息。然而,廣告通常以自然內容顯示,這為cross domain的CTR預測提供了機會。本文解決了這個問題,并利用輔助數據,從源領域,以提高CTR預測性能的目標領域。
我們的研究是基于UC Toutiao(一個與UC瀏覽器應用程序集成的新聞訂閱服務,每天為數億用戶提供服務),其中源域是新聞,目標域是廣告。為了有效地利用新聞數據預測廣告的點擊率,我們提出了混合興趣網絡(MiNet),它聯合建模了三個領域用戶興趣類型:
- 跨域的長期興趣;
- 源域的短期興趣;
- 目標域的短期興趣。
MiNet包含兩個層次的attention,其中item-level的attention可以自適應地從點擊的新聞/廣告中提取有用信息,interest-level可以自適應地融合不同的興趣表示。離線實驗表明,MiNet的預測性能優于幾種最新的CTR預測方法。我們在UC頭條部署了MiNet,A/B測試結果表明在線CTR也得到了實質性的改善。
為了有效的利用cross-domain的數據,本文考慮了三類用戶興趣:
- Long-term interst across domain: 每個用戶都有自己的個人資料功能,如用戶ID、年齡組、性別和城市。這些配置文件特性反映了用戶的長期內在興趣。基于跨域數據(即用戶與之交互的所有新聞和廣告),我們能夠了解到語義更豐富、統計上更可靠的用戶特征嵌入。
- Short-term interst from the source domain:對于要預測其CTR的每個目標廣告,在源域中存在相應的短期用戶行為(例如,用戶剛剛觀看的新聞)。雖然一條新聞的內容可能與目標廣告的內容完全不同,但它們之間可能存在一定的相關性。例如,一個用戶在觀看了一些娛樂星聞之后有很大的概率點擊一個游戲廣告,基于這樣的關系,我們就可以從源域中的有用的信息遷移到目標域中。
- Short-term interest in the target domain:對于每個目標廣告,目標域中也存在相應的短期用戶行為。用戶最近點擊的廣告可能對用戶在短期內點擊的廣告有很大的影響。
為了應對這些挑戰,我們提出了混合興趣網絡(MiNet),其結構下所示。在MiNet中,
- 用戶的長期興趣通過用戶特征嵌入Pu的串聯建模,Pu是基于跨領域數據的聯合學習,實現了知識的傳遞;
- 來自源領域的短期興趣通過向量as來建模,as聚合了最近點擊的新聞信息;
- 目標域中的短期興趣是通過向量at來建模的,它聚集了最近點擊的廣告的信息。
MiNet包含了了兩種不同的attention(item-level的和interest-level的),
- item-level的attention同時用于source-domain以及target-domain,我們希望通過此可以直接從source domain和target domain中點擊的新聞和廣告中抽取有用的信息;(解決上述的挑戰1和2)
- transfer的矩陣被引入用來從新聞到廣告的遷移;(解決上述的挑戰3)
- long-term的用戶興趣是基于cross-domain的數據學習的,也可以進行知識遷移(解決上述的挑戰3);
- 引入interest-level的attention動態調整三類用戶興趣的重要性, 關于不同的目標廣告(解決上述的挑戰4);
- 線下和線上的實驗結果表明了MiNet的有效性;
在線廣告點擊率預測的任務是建立一個預測模型來估計用戶點擊特定廣告的概率,每個實例可以用用戶信息(“用戶ID”、“城市”、“年齡”等)和廣告信息(“創意ID”、“活動ID”、“標題”等)以及個字段來描述。字段的實例化是一個特性。例如,“用戶ID”字段可以包含諸如“2135147”和“3467291”之類的特征。表1顯示了一些示例。
- 我們定義cross-domain CTR預測任務為從source domain中利用數據來提升目標域的CTR預估。
在新聞提要廣告中(如圖1所示的UC Toutiao),源域是自然新聞提要,目標域是廣告。在這個場景中,源域和目標域共享同一組用戶,但是沒有重疊項。
給定一個用戶,對于在目標域中預測其CTR的每個目標廣告,用戶通常在源域中查看新聞片段。雖然一條新聞的內容可能與目標廣告的內容完全不同,但它們之間可能存在一定的相關性。例如,用戶在觀看一些娛樂新聞后很有可能點擊游戲廣告。基于這些關系,我們可以將有用的知識從源領域轉移到目標領域。
item-level的Attention
給定一個用戶,對于每個要預測其CTR的目標廣告,該用戶在目標域中也有最近的行為。用戶最近點擊的廣告可能對用戶在短期內點擊的廣告有很大的影響。
1. Effectiveness
- MiNet不僅考慮了用戶的長期興趣,還考慮了用戶對這兩個領域的短期興趣。通過適當地組合這些不同的興趣信號,MiNet算法的性能明顯優于其他方法.
2. Ablation Study: Level of Attention
- 無論是item-level attention還是interest-level attention都能提高AUC,兩種注意水平的使用都能提高AUC。此外,“興趣-Attention(sigmoid)”的表現比“興趣-Attention(exp)”差得多。這是因為不恰當的激活函數不能有效地解決維度偏差問題。這些結果證明了所提出的層次注意機制的有效性。
3. Ablation Study: Effect of Modeling Different Types of User Interest
- 當在MiNet中綜合考慮所有這些因素時,我們得到了最高的AUC,表明不同類型的興趣可以互補,聯合建模可以得到最佳和更健壯的性能。
4. Online Deployment
- 在線A/B測試表明,與DSTN相比,MiNet使在線CTR提高了4.12%。
本文研究了在線廣告的跨域CTR預測問題。我們提出了一種新的方法,稱為混合興趣網絡(MiNet),它模擬了三種類型的用戶興趣:
- 跨域的長期興趣;
- 源域的短期興趣;
- 目標域的短期興趣。
MiNet包含兩個level的注意,其中item-level attention可以動態地從最近點擊的新聞/廣告中提取有用信息,interest-level attention可以自適應地調整不同用戶興趣信號的重要性。離線實驗驗證了三種用戶興趣模型的有效性和分層注意的使用。在線A/B測試結果也驗證了該模型在實際網絡廣告CTR預測任務中的有效性。
傳送門:
跨域CTR預估,帶你一飛沖天!總結
以上是生活随笔為你收集整理的推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐搜索炼丹笔记:SIM 用户行为序列点
- 下一篇: NLP炼丹笔记:Switch Trans