推荐搜索炼丹笔记:SIM 用户行为序列点击率预估模型
Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
阿里對行為序列的研究可以說已經獨領風騷了,前有DIN,后有MIMN,現在又出了這篇SIM。只能說行為序列確實對點擊率預估很重要,阿里已經證明,豐富的用戶行為數據對工業場景下推薦系統的點擊率預估具有很大的價值。MINN已經把序列長度增加到了1000,然而當長度超過1000,MIMN很難準確捕捉用戶興趣了。淘寶23%的用戶在過去5個月點擊都超過1000個item,所以這篇論文想對任意長度的行為序列進行建模。
下圖就是SIM,是個two-stage的策略,每個stage伴隨著一個重要的unit,General Search Unit(GSU)和Exact Search Unit(ESU)。
- first-stage: 這一步用GSU在線性時間內,把原始的長序列提取出top-K的子序列,K遠遠小于原始序列長度。
- second-stage: 這一步用ESU把first-stage提取的top-K子序列作為輸入,用一個類似DIN,DIEN的復雜結構精確的提取興趣。
用戶大量的歷史行為,對當前點擊率預估真正有用的也就一部分行為,所以無需把原始行為序列全都塞到模型中去,這樣資源消耗和性能瓶頸是無法承受的,所以干脆做個篩選,GSU就是這個功能。論文給出GSU兩種實現方式Hard-search和Soft-search。假設我們現在拿到的原始用戶行為序列B = [b1, b2, ..., bT],GSU會計算每個行為bi的相關性ri,最后取相關性最高的K個行為作為新的序列。GSU兩種實現方式本質就是ri計算方式不同,如下所示:
hard-search: 該方法沒有任何參數,就是找到和目標item相同類目的歷史序列的子序列。
soft-search: Wa和Wb是權重,ei和ea分別是序列第i個item和目標item的embedding,然后計算點積作為分數。論文提到可以用ALSH尋找top K的item,可以有個次線性的時間復雜度。
看到這里可能會有個疑問,ei和ea是怎么來的呢?見下圖:
需要注意的是,b1~bT必須長期興趣序列,因為GSU雖然是要從原始序列抽取K個興趣,但是是為長期興趣服務的,所以必須保證分布一致。圖中的Sum pooling計算如下式:
然后Ur和目標向量concat在一起,接mlp預估點擊率即可。
通過GSU,我們已經獲取了一個K長度的序列了,Exact Search Unit以該序列 B* 作為輸入,訓練一個基于attention的模型。考慮到B*序列每個item的權重是不同的,本能上都會覺得越靠近預估的item權重越大,論文里是把距離預估的item的時間差進行embeding為Et(長度為K,embsize為D的序列,類似bert中的位置編碼),B* 序列的也是一個長度為K的embeding序列E*。zb = concat((E*, Et), axis = 1),是一個長度為K,embsize為2*D的序列,作為用戶最終的興趣序列,然后用多頭attention:
i表示第i個head,最后concat所有的head,輸入到mlp中做ctr預估。如果我們用的是soft-search,loss就有兩個了,LossGSU和LossESU,這兩個loss權重都是1,如果用hard-search,只用LossESU即可。
畢竟再好的模型,不能上線都是白做,特別是在線服務都必須是毫秒級別,論文提到實施預估系統延遲需要低于30ms,以阿里的體量,流量巔峰時每秒要處理百萬用戶,論文給出了實實在在的上線方案,如下圖:
論文提到hard-search和soft-search選取的top-k序列,驚人的相似,所以考慮到性能資源,就采用hard-search的方式上線。既然用hard-search,就要找與目標item相同category的序列,所以論文提出了user behavior tree(UBT),就是兩層索引,第一層key為userid,第二層key為類目,最后value為行為序列。UBT用分布式系統實現,占22TB空間(有資源就是任性)。
實驗
最后來看一下SIM的實驗效果,首先看一下在阿里兩個數據集的表現:
著重看下下圖:
我們可以看到在短期行為的預估準確度DIEN和SIM是幾乎一樣的,但是長期行為上,SIM的優勢就體現了。
更多干貨,請關注微信公眾號:煉丹筆記傳送門:這個點擊率模型,值得用戶托付終身
總結
以上是生活随笔為你收集整理的推荐搜索炼丹笔记:SIM 用户行为序列点击率预估模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统炼丹笔记:推荐系统Bias/De
- 下一篇: 推荐搜索炼丹笔记:MiNet阿里跨域点击