當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

6、DRN-----深度强化学习在新闻推荐上的应用

發布時間：2023/12/19 综合教程 26 生活家

生活随笔收集整理的這篇文章主要介紹了 6、DRN-----深度强化学习在新闻推荐上的应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

提出了一種新的深度強化學習框架的新聞推薦。由于新聞特征和用戶喜好的動態特性，在線個性化新聞推薦是一個極具挑戰性的問題。

雖然已經提出了一些在線推薦模型來解決新聞推薦的動態特性，但是這些方法主要存在三個問題：①只嘗試模擬當前的獎勵（eg：點擊率）②很少考慮使用除了點擊 / 不點擊標簽之外的用戶反饋來幫助改進推薦。③ 這些方法往往會向用戶推薦類似消息，這可能會導致用戶感到厭煩。

基于深度強化學習的推薦框架，該框架可以模擬未來的獎勵（點擊率）

新聞推薦三個問題：

（1）新聞推薦的動態變化是難以處理的。

（2）用戶的興趣可能隨著時間的變化而變化。

（3）創新

強化學習：假定一個智能體（agent），在一個未知的環境中（當前狀態state），采取了一個行動（action），然后收獲了一個回報（reward），并進入了下一個狀態。最終目的是求解一個策略讓agent的回報最大化。

因此，本文提出了基于深度強化學習的推薦系統框架來解決上述提到的三個問題：

（1）首先，使用DQN網絡來有效建模新聞推薦的動態變化屬性，DQN可以將短期回報和長期回報進行有效的模擬。

（2）將用戶活躍度作為一種新的反饋信息。

（3）使用Dueling Bandit Gradient Descent 方法來進行有效的探索。

算法的框架如下圖所示：

當一個用戶 u 在時間 t 向推薦系統 G 發送一個新聞請求，系統會利用一個給定的新聞候選集 I 給用戶推薦一個 top-k 列表給用戶。

4.1 整體架構圖：

幾個關鍵環節：

push：在每一個時刻，用戶發送請求時，agent根據當前的state產生k篇新聞推薦給用戶。

Feedback：通過用戶對推薦新聞的點擊行為得到反饋結果。

minor update：在每個時間點過后，根據用戶的信息（state）和推薦的新聞（action）以及得到的反饋（reward），更新參數。

major update：在一段時間后，根據DQN的經驗池中存放的歷史經驗，對模型參數進行更新。

以上是生活随笔為你收集整理的6、DRN-----深度强化学习在新闻推荐上的应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。