论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集
文章目錄
- abstract
- 1.Introduction
- 2.數(shù)據(jù)收集
- 3.數(shù)據(jù)分析
- 4.基線設(shè)置
- 5.實(shí)驗(yàn)
Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.
基線+docRED數(shù)據(jù)集
abstract
文檔中的多個(gè)實(shí)體通常表現(xiàn)出復(fù)雜的句子間關(guān)系,并且不能通過現(xiàn)有的關(guān)系提取(RE)方法很好地處理,這些方法通常集中于提取單個(gè)實(shí)體對(duì)的句子內(nèi)關(guān)系。為了加速文檔級(jí)RE的研究,我們引入了DocRED,這是一個(gè)由維基百科和維基數(shù)據(jù)構(gòu)建的新數(shù)據(jù)集,具有三個(gè)特征:(1)DocRED注釋命名實(shí)體和關(guān)系,是文檔級(jí)RE的最大人類注釋數(shù)據(jù)集從純文本; (2)DocRED要求閱讀文檔中的多個(gè)句子,通過綜合文檔的所有信息來提取實(shí)體并推斷它們之間的關(guān)系; (3)與人工注釋數(shù)據(jù)一起,我們還提供大規(guī)模遠(yuǎn)程監(jiān)督數(shù)據(jù),使DocRED可用于監(jiān)督和弱監(jiān)督情景。為了驗(yàn)證文檔級(jí)RE的挑戰(zhàn),我們實(shí)施了最新的RE最新方法,并對(duì)DocRED上的這些方法進(jìn)行了全面評(píng)估。實(shí)證結(jié)果表明DocRED對(duì)現(xiàn)有RE方法具有挑戰(zhàn)性,這表明文檔級(jí)RE仍然是一個(gè)開放的問題,需要進(jìn)一步努力。基于對(duì)實(shí)驗(yàn)的詳細(xì)分析,我們討論了未來研究的多個(gè)有希望的方向。
- DocRED
- 用于:大規(guī)模文檔集句間關(guān)系提取
- 來源:wikipedia和wikidata
- 特征:
- 標(biāo)記實(shí)體和關(guān)系,文檔集最大的人類標(biāo)注純文本數(shù)據(jù)集
- DocRED包含132,375個(gè)實(shí)體和56,554個(gè)關(guān)聯(lián)事實(shí),這些事實(shí)在5,053維基百科文檔中注釋,使其成為最大的人工注釋文檔級(jí)RE數(shù)據(jù)集。
- 要求從多個(gè)句子中提取實(shí)體并推斷關(guān)系
- 由于DocRED中至少40.7%的關(guān)系事實(shí)只能從多個(gè)句子中提取,DocRED要求閱讀文檔中的多個(gè)句子以識(shí)別實(shí)體并通過合成文檔的所有信息來推斷它們之間的關(guān)系。這將DocRED與那些句子級(jí)RE數(shù)據(jù)集區(qū)分開來。
- 提供大規(guī)模遠(yuǎn)程監(jiān)督數(shù)據(jù),使之可用于監(jiān)督和弱監(jiān)督情景
- 標(biāo)記實(shí)體和關(guān)系,文檔集最大的人類標(biāo)注純文本數(shù)據(jù)集
- 仍是一個(gè)開放問題
1.Introduction
- 句子級(jí)關(guān)系提取
- (Socher et al., 2012;
- Zeng et al., 2014, 2015; .
- dos Santos et al., 2015;
- Xiao and Liu, 2016;
- Cai et al., 2016;
- Lin et al., 2016;
- Wu et al., 2017;
- Qin et al., 2018;
- Han et al., 2018a).
- 有必要從句子級(jí)提升到文檔級(jí)
- 因?yàn)樵S多關(guān)系只能從多個(gè)句子中提取推理得到
- 需要文檔級(jí)數(shù)據(jù)集
- 文檔級(jí)數(shù)據(jù)集少
- 非人工標(biāo)注,噪聲大:Quirk and Poon (2017) and Peng et al. (2017)—有個(gè)遠(yuǎn)程監(jiān)督生成的數(shù)據(jù)集,沒有人類標(biāo)注,噪聲大。
- 特定領(lǐng)域:BC5CDR(Li et al。,2016)是一個(gè)人類注釋的文檔級(jí)RE數(shù)據(jù)集,由1500個(gè)PubMed文檔組成,這些文檔在生物醫(yī)學(xué)的特定領(lǐng)域僅考慮“化學(xué)誘導(dǎo)的疾病”關(guān)系,使其不適合開發(fā)一般 - 文檔級(jí)RE的目的方法。
- 特定方法:Levy等人。 (2017)通過使用閱讀理解方法回答問題從文檔中提取關(guān)系事實(shí),其中問題從實(shí)體關(guān)聯(lián)對(duì)轉(zhuǎn)換。由于這個(gè)工作中提出的數(shù)據(jù)集是針對(duì)特定方法量身定制的,因此它也不適用于文檔級(jí)RE的其他潛在方法
- 存在各種問題,所以提出了DocRED
- 實(shí)驗(yàn)結(jié)果表明,現(xiàn)有方法的性能在DocRED上顯著下降,表明任務(wù)文檔級(jí)RE比句級(jí)RE更具挑戰(zhàn)性,并且仍然是一個(gè)開放性問題。
- 文檔級(jí)數(shù)據(jù)集少
2.數(shù)據(jù)收集
(1)為維基百科文檔生成遠(yuǎn)程監(jiān)督注釋。
(2)在文檔和指代消解中注釋所有命名實(shí)體。
(3)將命名實(shí)體提及鏈接到維基數(shù)據(jù)項(xiàng)。
(4)標(biāo)簽關(guān)系及相應(yīng)的證據(jù)。
第二階段和第四階段還要:
(1)使用命名實(shí)體識(shí)別(NER)模型生成命名實(shí)體,或者使用遠(yuǎn)程監(jiān)督和RE建立關(guān)系建議楷模。 (2)手動(dòng)糾正和補(bǔ)充建議。
(3)審查并進(jìn)一步修改第二遍的注釋結(jié)果,以獲得更好的準(zhǔn)確性和一致性。
3.數(shù)據(jù)分析
- 推理類型
- (1)大多數(shù)關(guān)系實(shí)例(61.1%)需要進(jìn)行推理識(shí)別,只能通過簡單的模式識(shí)別提取38.9%的關(guān)系實(shí)例,這表明推理是文檔級(jí)RE必不可少的。
- (2)在與推理相關(guān)的情況下,多數(shù)(26.6%)需要邏輯推理,其中兩個(gè)實(shí)體之間的關(guān)系由橋?qū)嶓w間接建立。邏輯推理要求RE系統(tǒng)能夠建模多個(gè)實(shí)體之間的交互。
- (3)顯著數(shù)量的關(guān)系實(shí)例(17.6%)需要共參照推理,其中必須首先執(zhí)行共參考解析以識(shí)別富文本中的目標(biāo)實(shí)體。
- (4)相似比例的關(guān)系實(shí)例(16.6%)必須基于常識(shí)推理來識(shí)別,其中讀者需要將文檔中的關(guān)系事實(shí)與常識(shí)結(jié)合起來以完成關(guān)系識(shí)別。
- 總之,DocRED需要豐富的推理技巧來綜合文檔的所有信息。
4.基線設(shè)置
- 實(shí)驗(yàn)時(shí)設(shè)置
5.實(shí)驗(yàn)
- 基線
- CNN (Zeng et al., 2014) based model,
- an LSTM (Hochreiter and Schmidhuber, 1997) based model,
- a bidirectional LSTM (BiLSTM) (Cai et al., 2016) based model and
- the Context-Aware model (Sorokin and Gurevych, 2017) originally designed for leveraging contextual relations to improve intra-sentence RE.
- 過程
- 輸入:concate(glove embedding, coference embedding,type embedding)
- 編碼器(CNN/LSTM…)編碼得到h(隱層表示)
- 一個(gè)提及的編碼為:mk=1t?s+1Σj=sthj???這個(gè)提及所有詞的表示的平均m_k=\frac{1}{t-s+1}\Sigma_{j=s}^th_j---這個(gè)提及所有詞的表示的平均mk?=t?s+11?Σj=st?hj????這個(gè)提及所有詞的表示的平均
- 實(shí)體的編碼:ei=1KΣkmk??所有提及的平均e_i=\frac{1}{K}\Sigma_k m_k--所有提及的平均ei?=K1?Σk?mk???所有提及的平均
- 分類器:
- 輸入:實(shí)體和位置編碼的ei′=concate(ei,E(dij)),ei′=concate(ej,E(dji))e_i'=concate(e_i,E(d_ij)),e_i'=concate(e_j,E(d_ji))ei′?=concate(ei?,E(di?j)),ei′?=concate(ej?,E(dj?i))
- 輸出:P(r∣ei,e2)=sigmoid(ei′TWrej′+br)P(r|e_i,e_2)=sigmoid(e_i'^TW_re_j'+b_r)P(r∣ei?,e2?)=sigmoid(ei′T?Wr?ej′?+br?)
總結(jié)
以上是生活随笔為你收集整理的论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 运算符 优先级 结合性
- 下一篇: Java栈内存、堆内存、方法区对对象和引