推荐系统炼丹笔记:阿里边缘计算+奉送20个推荐系统强特
背景
推薦系統(RS)已經成為大多數web應用程序的關鍵模塊。最近,大多數RSs都是基于云到邊緣框架的瀑布式的,其中推薦的結果通過在云服務器中預先計算傳送到edge(例如用戶移動)。盡管有效,但云服務器和邊緣之間的網絡帶寬和延遲可能會導致系統反饋和用戶感知的延遲。因此,edge上的實時計算可以幫助更精確地捕捉用戶的偏好,從而提出更令人滿意的建議。本文首次嘗試設計和實現邊緣推薦系統(EdgeRec),它實現了實時的用戶感知和實時的系統反饋。此外,本文還提出了基于行為注意網絡的異構用戶行為序列建模和上下文感知重排序,以捕捉用戶的不同興趣并相應地調整推薦結果。在淘寶主頁feeds的離線評測和在線性能測試結果表明了EdgeRec的有效性。
之前框架
如上圖所示,手機端先向云端服務器初始化一個頁面請求,matching和ranking模型對應頁面請求生成一個排序商品集合,而這套框架有諸多問題:
- 系統反饋延遲,在相鄰的兩個頁面請求,云端的RS無法實時調整推薦結果,所以較難滿足用變化的需求。
- 用戶感知延遲,RS模型部署在云端,往往會因為網絡延遲導致1min種左右的延遲,很難抓住用戶的實時需求。網絡的帶寬會進一步限制當前RS捕捉端上用戶的大量的和詳細的行為細節。
基于上述的情況,我們采用邊緣計算來滿足實時的性能要求。EdgeRec可以獲得實時用戶感知和實時的系統反饋。
系統
系統概覽
- Client Native (CN):初始化頁面請求并且將從RS服務器中返回的對應候選商品的特征進行緩存,從RS返回的商品個數被設置為100,然后CN收集用戶對曝光商品的行為并且除法模型服務模塊,在接收到候選商品的rank之后,CN就會調整商品的UI展示。
- Model Serving(MS):當由CN觸發時,MS對從CN處接收到的用戶行為和候選商品進行特征工程,然后基于神經網絡的模型,其目的是通過用戶行為建模來及時捕捉用戶行為,并對上下文感知的Reranking以及時響應用戶,MS向云發送日志,并將候選商品的排名結果返回給CN;
- Recommender System(RS): 響應來自CN的頁面請求,并為候選項提供初始排序。此外,它還可以在響應CN之前從云上的key-value存儲中查找MS模塊中的模型需要的商品特征和嵌入;
- Offline Training(OT): 在模型訓練之前,模塊首先從MS中收集日志并構造樣本。然后,將訓練后的模型分為三個部分:(1).用戶行為建模子模型;(2).上下文感知重排子模型;(3).嵌入矩陣(如類別和品牌)。最后,將前兩個子模型部署在MS模塊上,嵌入矩陣作為key-value形式保存在云上
算法模塊
問題定義
給定云端現有RS得到的初始排序商品列表Sr,對于在模型服務模塊的reranking請求r∈R,我們的目標是尋找到一個得分函數:
- 商品i的特征是xi;
- 從初始模型得到的局部排序s;
- 當前推薦環境下的實時用戶行為上下文C;
Reranking模型考慮在局部排序上下文,局部排序上下文表示為初始排序候選項之間的列表式交互,可以用RNN或Transformer來建模。在這里,我們認為實時的用戶行為上下文對于重排序問題也很重要,特別是在瀑布式推薦場景中,而以前很少有人考慮過這一點。
特征系統
1. Insight
之前很多模型:
- 只考慮用戶的直接正反饋,而忽略間接的負反饋,例如skipping或者刪除操作等。
- 只考慮與用戶交互的商品的特性(例如類別和品牌等),用戶的行為則被忽略了。
此外,雖然用戶沒有點擊某個項目,但對該項目曝光的操作(如滾動速度和曝光)可以代表該項目被視為“負面反饋”的程度。有時,如果用戶長時間關注某個項目而不單擊它,它不能絕對表明他/她不喜歡它。特別是在目前的瀑布流RS中,商品的顯示信息越來越豐富,比如大圖片、各種關鍵詞甚至自動播放的視頻,點擊已經成為一些用戶非常“奢侈”的正面反饋。
基于我們提出的EdgeRec系統,所有的用戶行為特征都是在邊緣(即用戶的移動設備)上收集、提取和消費的,與目前基于云到端的RS系統相比,這可以突破網絡延遲和帶寬的限制。因此,可以結合大量詳細的行為來更實時地推斷用戶偏好。另外,用戶的原始行為在自己的移動設備上進行處理和利用,在一定程度上緩解了用戶的數據隱私問題。
基于上面的討論,我們發現這項工作的意義是非常重大的,新的特征工程:
- 從“只依賴正反饋交互”到“同時關注正反饋和負反饋交互作用”;
- 從“只關注交互項”到“同時考慮交互項及其對應的動作”;
- 從“準實時”到“超實時”。
關于端上的實時特征:
2. 商品曝光用戶行為特征
商品曝光用戶行為特征分為四塊:
- 商品曝光統計特征;
- 用戶滑動統計特征;
- 用戶刪減反饋;
- 時間延遲。
3. 商品頁面瀏覽用戶行為特征
商品頁面瀏覽(ipv)特征分為三類:
- 商品頁面瀏覽的統計特征;
- 在每個block是否有點擊;
- 時間延遲;
4. 商品特征
商品特征可以分為:
- embedding學習的離散特征;
- 從base排序模型學習得到的原始特征;
異質用戶行為序列建模
這邊我們有兩個異質,第一個是:
- 商品曝光行為和商品頁面瀏覽行為:
因為商品的點擊相較于商品的曝光是更加稀疏的,所以一旦一起編碼,那么page-view的行為將會主導這一切。所以我們選擇分開建模(商品曝光行為序列+商品瀏覽行為序列建模);
第二個是:
- 用戶行為操作以及對應的用戶交互的商品;
我們首先對他們進行編碼,然后進行在下面的上下文感知的重排模型中對行為注意機制進行融合;
我們使用多層GRU網絡定義序列編碼函數:
1. 商品曝光行為序列建模
2. 商品頁面瀏覽行為序列建模
3. 行為Attention網絡的上下文感知重排
我們使用GRU網絡對初始排序模型排序的候選項序列進行編碼,并將最終狀態作為局部排序上下文,借助Attention技術,我們的重排序模型可以自動(軟)搜索與目標項目排序相關的部分用戶行為上下文。
4. 候選商品序列編碼
5. 行為Attention
6. 模型訓練
實驗
- CRBAN+HUBSM(IE&IPV)取得了巨大的提升;
2. 線上效果&性能
2.1 線上效果
采用完整型號CRBAN+HUBSM(IE&IPV)的EdgeRec平均為PV貢獻1.57%,CTR為7.18%,CLICK為8.87%,GMV為10.92%,帶來了巨大的提升;
2.2 線上性能
- 用戶行為的延遲時間大大降低,系統的響應時間大大降低,系統反饋數大大變多;
結論
本文設計并實現了EdgeRec來解決瀑布式RS中用戶感知和系統反饋的延遲問題,這是RS與邊緣計算相結合的首次嘗試。具體地說,本文提出了異構用戶行為序列建模和基于行為注意網絡的上下文感知重排序方法來對用戶豐富的行為進行建模。大量的線下和在線評估驗證了EdgeRec在工業RS中的有效性。
參考文獻
http://weixin.qq.com/r/XSjP1zrEzGezrX60931P (二維碼自動識別)
總結
以上是生活随笔為你收集整理的推荐系统炼丹笔记:阿里边缘计算+奉送20个推荐系统强特的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统炼丹笔记:阿里推荐算法特征交叉新
- 下一篇: 推荐算法炼丹笔记:标签工程