论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习
論文筆記整理:葉橄強,浙江大學在讀碩士,研究方向為知識圖譜的表示學習和預訓練。
來源:EMNLP 2020
現有的大多數基于行走的模型通過在提供可解釋的決策的同時獲得良好的性能,在知識圖譜推理中顯示出其優勢。但在遍歷過程中提供的稀疏獎賞信號往往不足以指導復雜的基于行走的強化學習模型。
另一方面使用傳統的符號方法,如規則歸納法,這些方法雖然性能良好,但由于符號表示的局限性而難以推廣。
本文提出了規則引導器RuleGuider,一方面利用基于符號的方法生成的高質量規則,另一方面高質量規則為基于行走的代理提供獎勵監督。
RuleGuider由兩個部分組成,一個是基于符號的方法,稱為規則挖掘器rule miner;另一個是基于路徑的方法,稱為agent。規則挖掘器rule miner首先挖掘邏輯規則,agent在規則的指導下,通過獎勵來學習推理路徑的概率分布。
代理部分agent分為兩個子代理:關系代理和實體代理,這兩個代理結構相互作用生成路徑。
在每個步驟中,實體代理首先從有效實體中選擇一個實體,然后關系代理將基于所選實體抽樣一個關系,最后他們基于最后選擇實體的命中獎勵和基于所選路徑的預挖掘規則集的規則指導獎勵。實體代理和關系代理可以參考如下模型結構圖
(1)關系代理Relation Agent
對于給定的查詢語句,關系代理選擇一個關聯到當前實體et?1的關系rt,這個過程可以用公式描述為,其中rq表示需要查詢的關系,R為挖掘出來的規則集合,是之前每一步挑選出來的關系歷史。
因此,關系代理既利用了預先挖掘的規則的置信度得分,也利用了嵌入向量提供的語義信息來獲得命中獎勵。
(2)實體代理Entity Agent
類似于關系代理,實體代理模型會基于頭實體es生成所有候選實體的分布,這個過程可以被形式化為,其中rq表示需要查詢的關系,rt表示從關系代理中獲取當前第t步驟的關系。
(3)策略網絡Policy Network
關系代理的搜索策略可以通過嵌入向量rq和來參數化,其中后者是關系歷史,通過長短期記憶神經網絡LSTM來計算,其中是最后一個關系的嵌入向量,是之前的歷史關系。于是可以得到關系代理輸出概率分布:
其中σ是softmax運算符,W1和W2是可訓練參數。因此,關系代理的歷史依賴策略可以表示為。
類似地,實體的概率分布可以表示為
實體代理的歷史依賴策略可以表示為
(4)訓練獎勵
規則引導獎勵Rr:給定一個查詢,關系代理會選擇指向正確對象實體的路徑。因此,在給定一條關系路徑的情況下,我們根據其從規則挖掘器中獲取的信任度給予獎勵,稱為規則引導獎勵
命中獎勵Rh:還將獲得命中獎勵Rh,如果預測的三元組在知識圖譜中,則其值為1。
訓練過程分四個階段訓練模型。
1) 使用基于嵌入embedding的方法訓練關系和實體嵌入向量。
2) 應用規則挖掘器來檢索規則及其相關的可信度分數。
3) 通過凍結實體代理并請求關系代理采樣路徑來預訓練關系代理。只使用規則挖掘器來評估路徑,并根據預先挖掘的置信度計算Rr。
4) 聯合訓練關系和實體代理來利用嵌入來計算相對濕度。
最終整合規則引導獎勵Rr和命中獎勵Rh 并為其加入系數為λ:,并使用強化學習算法訓練兩個代理的策略網絡,使最終的匯報R最大化
實驗
實驗部分作者做了三類實驗,包括三個數據集上的知識圖譜鏈接預測,模型各個和人工評估推導的規則合理性這些實驗。實驗結果如下:
RuleGuider在WN18RR和NELL-995上實現了不錯的效果,但在FB15k-237數據集上也效果有限。一個可能的原因是:與其他兩個數據集相比,FB15k-237中的關系空間要大得多,而在大的關系路徑空間中,規則相對稀疏,這使得關系代理難以選擇所需的規則。
另外與基于行走路徑的方法相比,基于嵌入的方法盡管相對簡單但在所有數據集上都具有一貫的良好性能,很可能是因為基于嵌入向量的方法將整個圖的結構信息隱式編碼到嵌入空間中。
?
為了驗證模型各個部分的有效性,文章設計了不同的RuleGuider模型變體來驗證試驗:Freeze模型,凍結了預訓練的關系代理部分;No模型,沒有預先訓練部分;Single模型,沒有分離agent。
Freeze模型與本文模型比較,凍結預先訓練過的agent代理效果較差,表現差表明命中獎勵是必要的。No模型與本文模型比較,去掉預訓練表現的結果較差,說明基于行走的智能體受益于邏輯規則。Single模型與本文模型比較性能較差,說明了剪枝動作空間的有效性。
除了評估鏈接預測指標和模型變體外,本文還進一步分析導致正確預測實體的推理路徑是否合理。文章在FB15k-237上使用均勻分布從開發集隨機抽取300個三元組的評估集。,對于給定正確的三元組,三個實驗者被要求選擇以下哪條路徑是更好的解釋/分解它之間的:(1)由本文方法生成的路徑;(2)由多跳方法Multihop生成的路徑;(3)抽簽或沒有一個是合理的。對于每個三元組,以多數票作為評估結果。從表4中可以看出,與具有復雜獎賞成形的多跳算法相比,規則引導器RuleGuider具有更好的性能,推理路徑對可解釋性更有意義。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于模式的时间表达式识别
- 下一篇: Java应用性能调优工具介绍及实践