论文浅尝 - COLING2020 | 桥接文本和知识的多原型嵌入在少样本关系三元组抽取中的研究...
本文轉(zhuǎn)載自公眾號:浙大KG。? ??
論文題目:Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction
本文作者:余海陽
發(fā)表會議:COLING 2020
論文鏈接:https://person.zju.edu.cn/person/attachments/2020-10/01-1602383274-838948.pdf
監(jiān)督學習下的關系三元組抽取方法需要大量的標注數(shù)據(jù),訓練樣本少時性能較低。而人類可以在有限的監(jiān)督樣本下了解新的概念,通過學習少量實例來掌握新知識。為此,我們開始研究尚未得到充分理解的少樣本關系三元組抽取任務。與以前的單任務下少樣本學習問題不同,關系三元組由于實體和關系之間的隱式關聯(lián)關系而更具挑戰(zhàn)性。
關系三元組抽取任務是自然語言處理和知識圖譜中重要的基礎任務,該任務的目標是對于無結(jié)構(gòu)化的文本預料中識別出實體對以及實體對之間的關系。這種三元組形式的知識存儲方式,對于下游如知識問答、閱讀理解等任務都有幫助。
目前的關系三元組抽取主要為監(jiān)督學習的方式訓練模型,需要大量的人工標注的訓練樣本,費時費力。而我們可以只在了解很少量的樣本后就可以學習到新的知識,由此下少樣本學習的研究對于關系三元組也極為重要。
對于少樣本關系三元組抽取任務而來,我們有兩個數(shù)據(jù)集meta data和test data,每個數(shù)據(jù)集包括的樣本形式為(x,t),其中x為文本語料,t為句中抽取到的關系三元組。仿照少樣本學習N-way K-shot設定,由于實體對的類別可以被關系類別約束,比如 Born_in關系約束頭實體類別為PERSON以及尾實體類別為LOCATION,因此我們通過關系的類別決定三元組的分類。具體任務設定如下示意圖:
在本文中,我們提出了一種新穎的多原型嵌入網(wǎng)絡模型(MPE Net),聯(lián)合抽取關系三元組的兩個組成部分,即實體對和對應關系。具體來說,我們設計了一種混合的原型學習機制,該機制將有關實體與關系的文本、知識橋接在一起,從而讓模型學習過程注入實體和關系之間的隱式關聯(lián)。此外,我們提出了一種原型感知的正則化方法,使得模型學習原型的過程更有效率且更具有代表性。
我們通過重構(gòu) FewRel 數(shù)據(jù)集滿足我們的實驗設定,并對比了一些少樣本學習的模型學習方法。實驗結(jié)果表明了我們模型的有效性。同時我們發(fā)現(xiàn)目前抽取性能偏低主要由于實體對抽取的低效。我們進一步具體分析了實體對抽取的錯誤結(jié)果,并總結(jié)了三種主要的錯誤原因。
總體而言,這篇文章研究工作的主要貢獻包括:
(1)探索研究少樣本關系三元組抽取任務,并提出多原型嵌入網(wǎng)絡模型將文本與知識橋接已注入實體與關系的隱式關聯(lián)。實驗結(jié)果表明,所提出的方法可以提高抽取性能。
(2)關系三元組抽取的實驗結(jié)果中,實體對的抽取性能遠遠低于關系抽取的性能,如何進一步增強實體學習的效率是我們下一步需要探索的方向。
? ?
浙江大學知識引擎實驗室
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - COLING2020 | 桥接文本和知识的多原型嵌入在少样本关系三元组抽取中的研究...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - WWW2020 | 生成多
- 下一篇: 开源开放 | 一个用于知识驱动的零样本学