论文浅尝 | GraphIE:基于图的信息抽取框架
筆記整理:呂欣澤,南京大學計算機科學與技術系,碩士研究生。
論文連接:https://arxiv.org/pdf/1810.13083.pdf
發表會議:NAACL 2019
摘要
大多數現代信息提取(IE)系統都是作為順序標記器實現的,并且只模擬本地依賴項。然而,非順序的上下文是改進預測效果的有價值的信息來源。本文介紹GraphIE,一個在圖上運行的信息抽取框架。該算法通過圖形卷積網絡在連接的節點之間傳播信息,利用來改進單詞級別的預測從,而生成更豐富的表示。本文評估了三個不同的任務:文本,社交媒體和視覺信息提取,結果一致地顯示GraphIE 優于最先進的信息抽取模型。
模型介紹
1.???? 概覽
最現代的信息提取(IE)系統通常被實現為順序標記器。這樣的模型有效地捕捉了在上下文中的本地關系,它們利用非本地和非順序依賴的能力有限。然而,在許多應用程序中,這種依賴性可以大大減少標記的模糊性,從而提高整體提取性能。例如,從文檔中提取實體時,各種類型的非本地情境信息,如共同引用和相同的提及可能提供有價值的線索。參見下圖,其中非本地關系對于區分第二次提及的實體類型至關重要:華盛頓(即人,組織或地點)。
本文提出了GraphIE,這是一個通過自動學習輸入空間中本地和非本地依賴關系之間的交互來改進預測的框架。它將圖網絡和編碼器-解碼器集成在一起,構建了序列標記的體系結構。模型如下。
2.???? 編碼
一個句子表示為,每一個詞被表示為一個向量,編碼公式為如下,其中代表隱態,0 代表初始隱態為 0 向量,代表編碼器的參數。
圖卷積網絡過程為如下,其中 ,是要學習的權重,是節點 v_i 的度,和組合得到第l層的表示。
3.???? 解碼
解碼時,隱態的獲得如下,其中是圖卷積網絡的輸出。
標記時使用CRF:
標記時使用CRF:
實驗結果分析
1.???? 文本信息抽取
使用CoNLL-2003 和CHEMDNER 數據集,實驗結果如下。
2.???? 社交媒體信息抽取
從Twitter語料庫里構造了兩個數據集EDUCATION和JOB。實驗結果如下。
3.???? 視覺信息抽取
數據集來自病人病歷,由于隱私原因無法公開。實驗結果如下:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | GraphIE:基于图的信息抽取框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 图对比学习的最新进展
- 下一篇: 研讨会 | 知识图谱引领认知智能+