基于用户行为的兴趣标签模型
隨著網站規模的擴大,內容也相應的與日俱增,涵蓋的頻道也越來越繁雜,在如此海量的信息平臺下,如何更好的服務用戶成了各門戶網站的首要任務。從用戶需求的角度考慮,對內容的判斷標準無疑是用戶對此內容是否感興趣。“千人千面”算法在互聯網行業已經不是個新鮮的詞匯,但如何做到對用戶興趣的精準匹配仍是難點,特別是對圖片、視頻等非文本內容來說,因為本身缺乏描述性文本,因此興趣標簽成為一種非常重要的語義素材。本文主要介紹根據優酷用戶歷史行為構建的興趣標簽模型,模型能夠及時捕捉用戶興趣的變化,調整個性化興趣標簽的排序,從而達到提高精準推薦和個性化推薦的效果。
1.模型數據流程
模型從用戶行為出發,最終定位用戶的興趣標簽,根據行為權重、時間衰減等因素,計算標簽權重并排序。流程如下所示:?
在用戶行為的選取上,登錄用戶考慮的用戶行為包括觀看、搜索、收藏、評論、頂踩和上傳,未登錄用戶考慮的用戶行為則只有觀看和搜索。
1.1 用戶行為數據采集
在本項目中,我們選取了最近180天內的用戶行為,每天將新的行為數據和歷史數據進行累加計算。?
1.2 視頻Tag信息
視頻都有一些特定的分詞標簽描述,一般是通過視頻標題和描述分詞提取出來的,可以單獨使用這些分詞,也可以用機器學習算法給標簽打上不同的權重,來標識標簽不同的重要性。?
1.3 用戶興趣標簽
用戶興趣標簽體系是一個分層級表示用戶興趣的結構,目的是為了從不同的粒度定位用戶的興趣。從視頻分詞標簽到用戶興趣標簽有一個映射關系,目前視頻分詞標簽量級為百萬,用戶興趣標簽有8萬左右。我們給用戶打上下一層級標簽的同時也會打上上一層級的標簽。?
2. 用戶興趣標簽權重計算規則
2.1 用戶行為打分規則(每日)
我們對用戶不同的行為類型設置了不同的權重。如此設定行為權重帶有一定的主觀性,但設定值符合大多數用戶的行為特點,也可以快速推進項目的進行。在下一版的改進計劃中,擬先對用戶進行一次聚類,然后對每個聚類群體利用回歸算法迭代出一組最優權重值,從而使權重的設定更具有針對性。下面主要介紹下觀看行為打分規則。?
主要考慮因素如下:?
1、 視頻觀看比例,用戶一天內的觀看比例有可能多倍于視頻長度。?
2、 降低短視頻的打分值。?
3、 考慮視頻播放次數的因素。?
4、 限定打分范圍。
2.2 用戶視頻Tag打分規則
將用戶行為融合,并轉化成對視頻標簽的打分。在生成用戶Tag打分數據時,我們考慮以下幾個因素:?
1、 時間衰減系數。用戶行為距當前時間越近的影響越大,因此從用戶標簽上可以反應該用戶最近的興趣點。?
2、 每天Tag數量衰減系數。考慮到用戶某一天內對某一標簽的集中行為有可能會拉偏此用戶的興趣點,因此添加了tag數量的衰減。?
2.3 用戶興趣標簽打分規則
這一步只是簡單的將視頻標簽映射到用戶興趣標簽分級體系,累加得到興趣標簽分值并按由高到低進行排序。結果數據形式如下,Weight為該興趣標簽分值占總標簽分值的百分比,Support為該興趣標簽的累加分值。?
小結:
雖然目前的興趣標簽模型還存在一些不足之處有待進一步改進,但引入用戶興趣模型確實可以在一定程度上更精確的定位用戶的興趣,進而提高個性化推薦的質量。此外,如何優化興趣標簽的提取也會直接影響著模型的精度。
總結
以上是生活随笔為你收集整理的基于用户行为的兴趣标签模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark Java API:Trans
- 下一篇: Hive中JOIN的使用入门