“知识图谱+”系列:知识图谱+强化学习
澤宇個人一直認為強化學習是建模動態系統最好的方法之一,通過與環境的不斷交互,在動作選擇和狀態更新的動態過程中逐漸達到優化目標。因此,本期澤宇將從知識圖譜結合強化學習的角度介紹幾個不同的研究方向的內容,包括知識圖譜推理、自動駕駛、時序推理、對話式問答系統和推薦系統。
1?知識圖譜推理
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.
Wenhan Xiong,?Thien Hoang,?and?William Yang Wang
核心貢獻:這篇論文是最早將強化學習應用于知識圖譜推理的研究。由于基于路徑的知識圖譜推理需要在知識圖譜中找到能夠從頭實體走到尾實體的一條多跳路徑,這個路徑搜索的過程就可以看成是一個馬爾可夫決策過程,因此很自然的可以想到用強化學習來建模這個馬爾可夫決策過程。這篇論文通過巧妙的設計了一個獎勵函數,保證在知識圖譜推理中能夠同時考慮精度、多樣性和效率。
這個任務簡單來說可以看成是一個簡單的問答系統,給定一個實體和關系,智能體在不斷交互中從知識圖譜中找到一條連通給定實體和答案實體的路徑,且這條路徑能夠很好的表示給定的關系。
了解強化學習基本概念的朋友應該知道,強化學習具體的方法主要有深度Q網絡(DQN)和基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更滿足知識圖譜路徑搜索的任務要求,而基于策略梯度的方法最核心的幾個組成部分包括:環境、動作(Actions)、狀態(States)、獎勵(Rewards)、策略網絡(Policy Network)。接下來,針對這篇論文分別介紹這幾個部分對應的內容。
環境:整個知識圖譜就是強化學習任務中的環境,需要從知識圖譜中找到滿足目標的路徑。
動作:所有的關系組成動作空間,每一步智能體選擇“下一步走向何方”其實就是在選擇當前實體關聯的哪一個關系。
狀態:智能體的狀態就是智能體當前在知識圖譜中所處的位置,狀態向量包括當前實體embedding和當前實體與目標實體embedding的距離。
獎勵:獎勵可以評價當前所處狀態的質量,這篇論文中用三種評價指標來定義獎勵,包括:
-
全局精度:站在全局的角度來看,如果智能體走到這一步之后的路徑能否到達目標實體。
-
路徑效率:通過觀察發現短路徑比長路徑更加可靠,因此可以用路徑的長度來衡量推理效率。
-
路徑多樣性:為了讓每一次訓練選擇的路徑能夠更加多樣,而不是重復選擇到之前已經走過的路徑,定義當前路徑與已存在路徑之間的多樣性。
策略網絡:這里策略網絡的設計就是一個兩層的全連接網絡,將當前狀態向量映射為可能動作的分布概率。
訓練過程中,為了加速強化學習的收斂,類似于AlphaGo,這篇論文也采用了廣度優先搜索學習有監督的策略,然后用蒙特卡洛策略梯度更新參數,更多的訓練細節詳見論文。
之后也有一些研究在這篇論文的基礎上進行了改進,總體框架都是一樣的,知識加入了一些訓練策略,例如action drupout和reward shaping,可以增加動作選擇的多樣性和提供更有效的獎勵函數。此外,還有一些在強化學習的基礎上引入邏輯規則來引導路徑的搜索。
2?自動駕駛
Reinforcement?Learning?for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA?2021.
Xiaobai Ma,?Jiachen Li,?Mykel J. Kochenderfer,?David Isele,?Kikuo Fujimura
核心貢獻:這篇論文發表在機器人頂會ICRA,研究了在自動駕駛領域,駕駛員會受到周圍車輛的影響的現實情況,通過對駕駛員隱狀態中編碼先驗知識來優化強化學習,并結合周圍車輛構建知識圖譜進一步采用基于圖神經網絡的圖表示學習方法來更新駕駛員的隱狀態,在自動導航任務中加速強化學習的過程。
對應強化學習過程中的幾個概念,本研究分別定義:
狀態:這里特別的是定義了一個聯合狀態,包括進入或離開環境的每個車輛自身的位置和速度,及每個車輛鄰域車輛信息的表示。
觀測值:每個車輛自身狀態疊加一個高斯噪聲組成觀測值。
動作:控制車輛自身速度的選擇空間。
轉移:車輛自身是通過一個PD控制器跟蹤期望的速度來實現軌跡控制。
獎勵:獎勵函數由任務完成是否完成的打分和速度組成,目標是在盡量快的速度下完成車輛右轉。
這里特別的是,論文中將建模時間序列模型的LSTM和圖表示學習中的GraphSAGE結合,實現對于動態車輛及周圍鄰域車輛狀態的表示學習,頂層LSTM網絡的輸出就是動作分布,這個時空GNN網絡結構在整個模型的策略網絡和隱式推理中都會用到。
3?時序推理
Search from History and Reason for Future: Two-stage Reasoning on Temporal?KnowledgeGraphs.?ACL 2021.
Zixuan Li,?Xiaolong Jin,?Saiping Guan,?Wei Li,?Jiafeng Guo,?Yuanzhuo Wang,?Xueqi Cheng
核心貢獻:這篇論文研究了動態知識圖譜的時序推理。通過設計了包含線索搜索和時序推理的兩階段模式,預測未來將發生的事件。在線索搜索階段,通過強化學習來訓練一個集束搜索策略,以從歷史事件中推斷多條線索。在時序推理階段,使用基于GCN的時序模型從線索中推理答案。
這里我們重點討論基于強化學習的線索搜索部分,對應強化學習過程中的幾個概念,本研究分別定義:
環境:整個知識圖譜就是強化學習任務中的環境。
狀態:智能體的狀態是一個五元組,其中包含給定需要查詢的頭實體、關系、時間點和智能體當前到達的實體和時間點。
時間約束的動作:與靜態知識圖譜不同,動態知識圖譜中的時間維度會極大的增加動作空間的規模,并且人類記憶集中在最近的一段時間內。因此,這里動作定義為在智能體當前到達的實體,一段時間區間內的能夠到達的(實體,關系,時間點)組成的三元組。
轉移:智能體通過動作選擇從當前狀態更新到新的實體。
獎勵:獎勵由評價是否達到正確的尾實體的二值獎勵和在階段二中得到的實值獎勵組成。
策略網絡包括:
-
編碼線索路徑的LSTM網絡。
-
計算動作分布的多層感知器。
論文中介紹的隨機集束搜索策略和時序推理部分可以詳見論文。
4?對話式問答系統
Reinforcement?Learning?from Reformulations in Conversational Question Answering over?Knowledge?Graphs. SIGIR?2021
Magdalena Kaiser,?Rishiraj Saha?Roy,?Gerhard Weikum
核心貢獻:類似于多輪對話系統,這篇論文研究了對話式問答。利用強化學習從提問和復述的對話流中學習有效信息以從知識圖譜中找到正確的答案。論文中設計的模型通過將回答的過程建模為在知識圖譜中多個智能體并行游走,如何游走通過策略網絡選擇的動作決定,策略網絡的輸入包括對話上下文和知識圖譜中的路徑。
對應強化學習過程中的幾個概念,本研究分別定義:
狀態:第t輪的問句表示+之前對話的一個子集作為上下文問句+上下文實體中的其中一個作為智能體出發的起始點。
動作:從當前實體出發的所有路徑,每條路徑到達的end point實體都是候選答案。
轉移:轉移函數將狀態更新為智能體到達的end point實體。
獎勵:獎勵函數為二值獎勵,如果用戶下一次說的是一個新的問題,說明模型給出的回答解決了用戶的問題給正向獎勵,如果用戶下一次說的是相近意圖的復述內容,說明沒有回答用戶的問題給負向獎勵。
這篇論文中采用策略梯度訓練強化學習模型,由于這個模型中涉及多智能體,動作選擇是從每個智能體選擇top-k個動作。多個智能體都可能得到候選答案,按照被智能體選擇為候選答案的次數對實體進行排序,排名最高的實體為預測的答案。
5?推薦系統
Interactive Recommender System via?Knowledge?Graph-enhanced?Reinforcement?Learning. Arxiv 2021.
Sijin Zhou,?Xinyi Dai,?Haokun Chen,?Weinan Zhang,?Kan Ren,?Ruiming Tang,?Xiuqiang He,?Yong Yu
核心貢獻:這篇論文研究了能夠和用戶交互的推薦系統。為了處理用戶的興趣變化和逐漸積累的項目,將交互式推薦看成一個決策制定和長期規劃的馬爾科夫決策問題,就可以將強化學習引入交互式推薦系統。然而強化學習的訓練效率較低,為了解決這一問題,利用知識圖譜中項目相關的先驗知識來指導候選推薦項的選擇。
對應強化學習過程中的幾個概念,本研究分別定義:
狀態:當前項目及其多跳鄰域組成的子圖。
動作:接下來選擇推薦的項目。
轉移:轉移函數將狀態更新為智能體到達的end point實體。
獎勵:對于系統傳遞給用戶的推薦項目,根據用戶的反饋是“點擊”,“購買”還是“跳過”來給定獎勵。
由于在強化學習中,狀態的表示是非常關鍵的,這篇論文中提出一個知識圖譜增強的狀態表示機制。其中,將已經點擊的項目轉換為embedding表示,并利用GCN對項目在知識圖譜中的鄰域信息進行聚合更新項目的embedding,得到鄰域表示。
進一步,為了編碼對用戶的觀測信息,采用GRU聚合用戶的歷史行為并蒸餾用戶的狀態表示,其中得到的當前用戶狀態的表示可以輸入Q網絡中。
此外,論文中提出了的一個基于鄰域的候選選擇機制,從已點擊項目在知識圖譜中多跳鄰域中選擇候選推薦項目,可以利用知識圖譜提供的語義相關性有效縮小動作空間的大小,便于提高模型的計算效率。
這篇論文采用DQN來學習最優策略,訓練整個強化學習模型。
從以上幾個不同領域的研究內容可以發現,只要是需要和環境交互的動態系統,都有可能通過強化學習的方法來進行建模,知識圖譜不僅可以是強化學習的對象例如知識圖譜推理,也可能為強化學習的狀態和動作選擇提供語義信息得到更好的表示來優化強化學習的過程。
以上就是本期所有對于知識圖譜+強化學習的學習分享了。所有內容都是澤宇經過調研和學習理解總結的,之后還會陸續分享知識圖譜+各類方向的技術介紹,如果大家有對某個方向感興趣的可以聯系澤宇,敬請關注啊。
往期精選:
“知識圖譜+”系列:知識圖譜+圖神經網絡
年末巨制:知識圖譜嵌入方法研究總結
介紹一些知識圖譜的實際應用類項目
知識圖譜最新權威綜述論文解讀:知識表示學習部分
手把手教你搭建一個中式菜譜知識圖譜可視化系統
如果對文章感興趣歡迎關注知乎專欄“人工智能遇上知識圖譜“,也可以掃描下方二維碼關注同名微信公眾號“人工智能遇上知識圖譜”,讓我們一起學習并交流討論人工智能與知識圖譜技術。
?
總結
以上是生活随笔為你收集整理的“知识图谱+”系列:知识图谱+强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python:绘图保存时出现空白图像的解
- 下一篇: 国科大高级人工智能2-人工神经网络(ML