知识图谱领域有哪些最新研究进展?不妨从EMNLP 2021录用论文寻找答案
?原創 ·?作者 |?王馨月
學校?|?四川大學本科生
研究方向?|?自然語言處理
SciClaim
論文標題:
Extracting Fine-Grained Knowledge Graphs of Scientific Claims: Dataset and Transformer-Based Results
論文鏈接:
https://arxiv.org/abs/2109.10453
項目地址:
https://github.com/siftech/SciClaim
本文作者提出了?SciClaim 數據集。SciClaim 對社會和行為科學(SBS)、PubMed 和 CORD-19 論文的科學聲明數據集的非結構化文本的知識圖進行了注釋。注釋不僅包含粗粒度的實體跨度作為節點和關系作為它們之間的邊,而且還包含修改實體及其關系的細粒度屬性,語料庫中總共有 12,738 個標簽。通過包含更多標簽類型和兩倍以上的標簽密度,SciClaim 捕獲了實驗變量的因果、比較、預測、統計和比例關聯及其資格、子類型和證據。并且擴展了基于 transforemr 的聯合實體和關系提取的工作,以有效地推斷模式,展示了科學聲明及其他領域中細粒度知識圖的前景。
如上圖所見,SciClaim 知識圖具有實體(節點)、關系(邊)和屬性(括號),通過 arg0 將自變量連接到通過 arg1 與因變量的不同相關性。兩個關聯實體將兩對從屬因素與一個獨立因素相關聯,而屬性和附加關系界定了權利要求的范圍和定性比例。受語義角色標簽的啟發,屬性修改關聯及其參數的角色,使我們能夠表示因果、比較、預測、統計和比例關聯的主張及其資格、子類型和證據。
實體(Entities)是標記的文本跨度。實體包括 SciClaim 圖的節點,在這些節點上聲明屬性和關系。共有六種實體類型:Factors 是在聲明中測試或斷言的變量。Associations 是關聯一個或多個因素的明確短語。Magnitudes 是關聯的修飾符,表明其可能性、強度或方向。Evidence 是對支持關聯的研究、理論或方法的明確提及。Epistemics 表達了關聯的信念狀態,通常表明某事是否是假設、假設或觀察到的。Qualifiers 限制了斷言的適用性或范圍。
屬性(Attributes)是多標簽細粒度注釋(在括號中顯示),其中零個或多個可能適用于任何給定實體。共包括以下幾種屬性:Causation 表示對其構成因素的因果關系。Correlation 表示對其構成因素的相互依賴。Comparison 表達了與參考框架的關聯。Sign+ 和 Sign- 表示高/低或增加/減少的因子值。Test 表示統計測量。Indicates 表示預測關系。
關系(Relations)是 SciClaim 圖中標記實體之間的有向邊。共有六種關系:arg0 將關聯與其原因、前因、主題或自變量相關聯。arg1 將關聯與其結果或因變量相關聯。comp_to 是比較關聯中的顯式參考框架。subtype 將頭部實體與亞型尾部相關聯(例如,“死產”作為“妊娠結果”的亞型)。modifier 將關聯與限定詞、量級、認知和證據相關聯。q+ 和 q- 分別表示正和負的定性比例,其中增加頭部因素分別增加或減少尾部因素。
上圖是作者對 SpERT 組件(a、b 和 c)的擴展具有多標簽屬性(d)和基于注意力的實體跨度表示(e)。
CSKB-Population
論文標題:
Benchmarking Commonsense Knowledge Base Population with an Effective Evaluation Dataset
論文鏈接:
https://arxiv.org/abs/2109.07679
項目地址:
https://github.com/HKUST-KnowComp/CSKB-Population
對元素為自由文本形式的常識知識庫(commonsense knowledge bases, CSKB)進行推理是 NLP 中一項重要而艱巨的任務。雖然 CSKB 補全(completion)只填補了 CSKB 域內的缺失鏈接,但 CSKB 填充(population) 也被提出,目的是從外部資源中推理出看不見的斷言。在此任務中,CSKB 以大規模事件(活動、狀態和事件)圖為基礎,以區分來自事件圖的新三元組是否合理。然而,現有的對 population 任務的評估要么不準確(使用隨機采樣的負樣本進行自動評估)要么規模小(人工注釋)。下圖是補全任務和填充任務的對比。
在本文中,作者通過首先對齊四個流行的 CSKB 和一個事件圖 ASER,然后提供高質量的人工注釋評估集來探索神經模型的常識推理能力,從而使用新的大規模數據集對 CSKB population 任務進行基準測試。作者還提出了一種新穎的歸納常識推理模型,KG-BERTSAGE 將知識三元組的語義和子圖結構結合起來進行推理,在其他同類中取得了最佳性能。實驗結果表明,在看不見的斷言上概括常識推理本質上是一項艱巨的任務。在訓練期間實現高精度的模型在評估集上表現不佳,與人類表現之間存在很大差距。
上圖是標準化 ASER 知識庫的示例。橙色節點和邊是來自 ASER 的原始數據,藍色的是通過將“he”和“she”轉換為占位符“PersonX”和“PersonY”的歸一化圖。
KGML
論文標題:
Knowledge-Aware Meta-learning for Low-Resource Text Classification
論文鏈接:
https://arxiv.org/abs/2109.04707
元學習在僅從當前元學習算法采用的歷史任務中學習知識,沒有得到訓練任務的良好支持時,可能無法很好地推廣到測試任務。這篇文章研究了一個低資源文本分類問題,并通過利用外部知識庫彌合了元訓練和元測試任務之間的差距。具體來說,作者提出了一種新方法 KGML 為從提取的特定于句子的知識圖中學習的每個句子引入額外的表示。在三個數據集上的大量實驗證明了 KGML 在有監督適應和無監督適應設置下的有效性。
上圖是從共享知識庫中提取特定于句子的 KG 的圖示。
上圖是 KGML 框架在有監督和無監督適應的設置。ACG 代表知識融合的聚合器 。
上圖是 KGML 的有監督適應情況的算法。
GATER
論文標題:
Heterogeneous Graph Neural Networks for Keyphrase Generation
論文鏈接:
https://arxiv.org/abs/2109.04703
為了解決在關鍵短語生成(Keyphrase generation, KG)任務中,encoder-decoder 結構僅依賴源文檔可能會導致生成無法控制和不準確的缺失關鍵短語問題,復旦張奇老師團隊提出了一種新的基于圖的方法,可以從相關參考文獻中捕獲顯性知識。
模型首先從預定義的索引中檢索一些類似于源文檔的文檔-關鍵短語對作為參考。然后構建異構圖來捕獲源文檔與其引用之間不同粒度的關系。為了指導解碼過程,引入了分層注意和復制機制,該機制根據相關性和重要性直接從源文檔及其參考文獻中復制適當的單詞。在多個 KG 基準上的實驗結果表明,所提出的模型相對于其他基線模型取得了顯著的改進,尤其是在缺少關鍵短語預測方面。
上圖是本文提出的的 GATER (Graph ATtention network basEd on References) 模型的圖示。首先使用源文檔檢索引用,其中每個引用都是來自訓練集中的文檔和關鍵短語對的串聯。然后構建一個異構圖并進行迭代更新。最后,提取源文檔節點以使用分層注意和復制機制對關鍵短語序列進行解碼。
上圖是不同模型生成的關鍵短語示例。對于當前和不存在的關鍵短語,正確的預測分別以粗體藍色和粗體紅色顯示。參考文獻中出現的缺失預測以黃色突出顯示,其中只有檢索到的文檔的關鍵短語被視為 KG-KE-KR-M 的參考。
TimeTraveler
論文標題:
TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting
論文鏈接:
https://arxiv.org/abs/2109.04101
時間知識圖(Temporal knowledge graph, TKG)推理是近年來引起越來越多研究興趣的一項關鍵任務。現有的大多數方法都側重于對過去時間戳進行推理以完成缺失的事實,而在已知 TKG 上進行推理以預測未來事實的工作很少。與完成任務相比,預測任務更加困難,面臨兩個主要挑戰:(1)如何有效地對時間信息進行建模以處理未來的時間戳?(2)如何進行歸納推理來處理隨時間出現的先前看不見的實體?
為了應對這些挑戰,本文作者提出了一種用于預測的強化學習方法。具體來說,“時間旅行者”(TIme Traveler, TITer)在歷史 KG 快照上旅行以尋找未來查詢的答案。TITer 從查詢主題節點開始,根據與當前節點相關的時間事實依次轉移到新節點,并預計在答案節點處停止。為了處理看不見的時間戳挑戰,TITer 使用相對時間編碼功能在做出決策時捕獲時間信息。
作者進一步設計了一種基于狄利克雷分布的新穎的時間形獎勵來引導模型捕捉時間信息。為了解決看不見的實體,作者引入了一個基于時間路徑的框架,并提出了一種新的看不見的實體表示機制,稱為歸納均值(Inductive Mean, IM)表示,以提高模型的歸納推理能力。與現有的最先進方法相比,在四個基準數據集上的大量實驗證明了顯著的性能改進,同時具有更高的可解釋性、更少的計算和更少的參數。
上圖是具有時間邊的 TKG 的圖示。
上圖是 TITer 的概覽。給定一個查詢 ,TITer 從節點 開始在,每一步,TITer 采樣一條出邊,并根據 (策略網絡)遍歷到一個新節點。以搜索的最后一步為例。 是當前節點。策略網絡的圖示提供了對候選動作 之一進行評分的過程。TITer 根據從所有候選分數計算的轉換概率對動作進行采樣。當搜索完成時,時間形獎勵函數將根據估計的狄利克雷分布 給代理一個獎勵。
上圖是 IM 機制的圖示。對于一個看不見的實體 ,“”表示 在 處有共現關系 ,并根據 更新其表示,最后在 處得到 IM 表示。然后為了回答一個查詢 ,我們基于 做一個預測轉換。
Object-Aware Transformer
論文標題:
Structured Context and High-Coverage Grammar for Conversational Question Answering over Knowledge Graphs
論文鏈接:
https://arxiv.org/abs/2109.00269
作者使用神經語義解析方法解決了在大型知識圖上的弱監督 QA 問題。作者引入了一種新的邏輯形式(Logical Form, LF)語法,它可以對圖上的各種查詢進行建模,同時保持足夠簡單以有效地生成監督數據。
作者基于 Transformer 的模型將類似 JSON 的結構作為輸入,使我們能夠輕松地合并知識圖和對話上下文。這種結構化輸入被轉換為嵌入列表,然后饋送到標準注意力層。
作者在兩個公開的數據集 CSQA 和 ConvQuestions 上進行實驗,在語法覆蓋率和 LF 執行準確性方面驗證了本文的方法。在 CSQA 上,本文的方法將覆蓋率從 80% 增加到 96.2%,將 LF 執行準確率從 70.6% 增加到 75.6%,
先前的幾個 KG-QA 作品都是基于 D2A 的語法。作者重新設計語法以對更廣泛的查詢進行建模。通過定義更通用的運算符,作者在不增加運算符數量和 LF 平均深度的情況下實現了這一點。實體是 KG 中的一個節點。兩個實體可以通過稱為屬性的有向標記邊相關聯。屬性還可以將實體與值相關聯,該值可以是日期、布爾值、數量或字符串。實體和屬性有幾個類型,主要是名稱和整數 ID。成員屬性將成員實體與類實體聯系起來。
我們將在下面考慮的對象是實體、屬性、類和值。語法由一系列運算符組成,這些運算符將對象或對象集作為參數。邏輯形式是運算符的二元表達式樹。
上圖是運算符,分為五類。其中變量可以是實體 (E)、類 (C)、值 (V)、此類元素的有序集(分別為 SE、SC 和 SV)或屬性 (P)。
上圖是本文提出的模型的架構。初始字段嵌入是 Positional (P)、Property ID (PID)、Entity ID (EID) 和 Class ID (CID)。在第一個 Flattener 層之后,我們獲得了屬性嵌入(PE)、類嵌入(CE)、實體嵌入(EE)。輸出中還有 Grammar Token (GT) 嵌入。
作者還在附錄中對實驗設置以及更詳細的結果做了進一步描述,值得閱讀。
iMRC Graph
論文標題:
Interactive Machine Comprehension with Dynamic Knowledge Graphs
論文鏈接:
https://arxiv.org/abs/2109.00077
項目地址:
https://github.com/xingdi-eric-yuan/imrc_graph_public
交互式機器閱讀理解(Interactive machine reading comprehension, iMRC)是一種機器理解任務,其中知識源是部分可觀察的。代理必須按順序與環境交互以收集必要的知識以回答問題。我們假設圖表示是很好的歸納偏差,可以在 iMRC 任務中作為代理的記憶機制。作者探索了四種不同類別的圖,它們可以在不同級別捕獲文本信息。作者還描述了在信息收集期間動態構建和更新這些圖的方法,以及在 RL 代理中編碼圖表示的神經模型。iSQuAD 上的大量實驗表明,圖形表示可以顯著提高 RL 代理的性能。
上圖左邊是本文代理的概覽。作者建議使用圖表示作為 iMRC 代理的附加輸入模式。右邊是從 iMRC 擴展而來的編碼器模塊的放大視圖。作者建議在管道中添加一個新的圖更新器模塊和一個圖編碼層。具體來說,在步驟 t,圖更新器將文本觀察 和上一步中的圖 作為輸入并生成新圖 。
隨后,圖被編碼為隱藏狀態,然后與文本表示聚合。請注意,與靜態 MRC 工作中完全觀察到的知識圖 (KG) 不同,本文中的圖是動態生成的,即在每個交互步驟中,代理可以將新觀察中的信息更新為其圖表示。
在生成和更新圖的步驟中,類似于最近為靜態 MRC 任務設計的方法,作者研究了通過語義角色標簽(Semantic Role Labeling, SRL)構建知識圖。SRL 系統可以檢測與句子中的每個謂詞(或動詞)相關聯的參數以及它們如何分類為特定角色。此屬性對于處理 MRC 任務至關重要,尤其是對于提取 QA 數據集,其中答案通常是短文本塊(例如,實體),此類塊通常可以被 SRL 解析器識別為參數。
通過 SRL,我們可以很容易地了解參數之間是如何相互作用的,進一步連接多個句子中檢測到的共同塊可以產生有助于理解段落的參數流。上圖為與給定句子對應的 SRL 圖的部分視圖。藍色:句根;紅色:謂詞/動詞;綠色:參數;黃色:修飾符。
作者在附錄中對于模型結構和完整結果有更詳細的描述,方便讀者進一步了解模型。
CR-Walker
論文標題:
CR-Walker: Tree-Structured Graph Reasoning and Dialog Acts for Conversational Recommendation
論文鏈接:
https://arxiv.org/abs/2010.10333
項目地址:
https://github.com/truthless11/CR-Walker
會話推薦系統(Conversational Recommender Systems, CRS)吸引了越來越多的興趣,它通過會話交互探索用戶偏好,以便做出適當的推薦。然而,現有 CRS 仍然缺乏以下能力:(1)在背景知識上遍歷多條推理路徑以引入相關項目和屬性,以及(2)在當前系統意圖下適當安排所選實體以控制響應生成。
為了解決這些問題,清華大學黃民烈老師團隊提出了 CR-Walker,這是一種在知識圖上執行樹結構推理的模型,能夠生成信息性對話行為來指導語言生成。樹結構推理的獨特方案將每一跳的遍歷實體視為對話的一部分,以促進語言生成,這將如何選擇和表達實體聯系起來。自動和人工評估表明 CR-Walker 可以得出更準確的推薦,并產生更多信息和引人入勝的響應。
CRS 的第一個挑戰是如何推理背景知識以獲得準確推薦。上圖是示例對話的前三輪。該對話顯示在左側,KG 上的實體以粗體顯示。每個對話右邊的圖展示了 CR-Walker 的推理過程,推理樹標記為紅色。在整篇論文中,候選項目用數字標注,通用類/屬性用大寫/小寫字母標注。橙色/藍色表示實體在前面的上下文中被提及/未提及。
在用戶提到“Hemsworth”之后,agent 就聊聊“Hemsworth”主演的“Vacation”,進一步探索用戶對“Comedy”電影的興趣。然后,它根據對用戶偏好(“喜劇”和“動作”)的幾種不同推理路徑推薦“Thor”。
第二個挑戰是如何在響應生成中充分利用所選實體。由于可以在對話推薦中應用不同的對話動作,因此需要使用對話動作指南(對話語義和意圖的抽象表示)正確表達所選實體,以形成自然、信息豐富且引人入勝的話語與用戶交互。
然而,之前的大多數工作都停留在推斷實體而不對響應生成進行建模。同樣在上圖中,agent 首先詢問用戶喜歡的類型和演員,然后談論明星和電影以吸引用戶參與對話,最后根據用戶興趣推薦電影。此外,agent 在第三輪提供解釋,使推薦更具可解釋性和說服力。
為了應對上述兩個挑戰,作者提出了 Conversational Recommendation Walker (CR-Walker)。模型首先選擇一個系統意圖來決定系統是詢問信息、談論某事還是提出建議。
然后,它對知識圖(KG)和對話上下文執行樹結構推理,創建由相關實體組成的推理樹,以作為響應引入。樹上實體的層次排列保留了當前系統意圖下的邏輯選擇順序,將其轉化為對話行為。對話的線性化表示進一步指導使用預訓練的語言模型生成信息豐富且引人入勝的響應。
上圖是 CR-Walker 的整體架構。右邊是單個 Walker 單元的詳細結構, Walker 單元計算圖上的實體與集成了話語嵌入和用戶畫像的上下文嵌入之間的相似性。通過邏輯回歸學習實體選擇以實現多選。下圖是 CR-Walker 的具體算法。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的知识图谱领域有哪些最新研究进展?不妨从EMNLP 2021录用论文寻找答案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿克苏住房公积金装修大修能提几次
- 下一篇: 全新荣威RX5的动力强劲吗,麻烦推荐个适