论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架
論文筆記整理:竇春柳,天津大學(xué)碩士。
鏈接:https://arxiv.org/pdf/1909.03227.pdf
動(dòng)機(jī)
???? 首先作者提出了問題,傳統(tǒng)的關(guān)系抽取是不能很好的解決三元組重疊,如下圖。從圖中可以發(fā)現(xiàn),傳統(tǒng)的關(guān)系抽取針對(duì)Normal 類型的數(shù)據(jù)還是可以的,但是針對(duì)EPO和SEO的情況就不理想。盡管像這樣的問題已經(jīng)有人做了很多研究,但是仍然存在很多的問題,他們都把每個(gè)實(shí)體對(duì)的關(guān)系看作離散的,這樣導(dǎo)致會(huì)導(dǎo)致模型學(xué)習(xí)很困難,原因有兩點(diǎn):第一點(diǎn),數(shù)據(jù)分布不均衡,第二點(diǎn), 針對(duì)重疊的標(biāo)簽,如果在訓(xùn)練數(shù)據(jù)很少的情況下,分類器很難去正確的分類。
亮點(diǎn)
本文采用全新的視角代替以往分類的視角,將關(guān)系建模為 S 到 O 的映射函數(shù)。提出一個(gè)全新的框架:CASREL。
概念及模型
CASREL框架抽取三元組(subject, relation, object)主要包含兩個(gè)步驟,三個(gè)部分。
兩個(gè)步驟
1、要識(shí)別出句子中的 subject 。
2、要根據(jù)識(shí)別出的 subject, 識(shí)別出所有有可能的 relation 以及對(duì)應(yīng)的 object。
三個(gè)部分
1、BERT-based encoder module: 可以替換為不同的編碼框架,主要對(duì)句子中的詞進(jìn)行編碼,論文最終以BERT為主,效果很強(qiáng)。
2、subject tagging module:目的是識(shí)別出句子中的 subject。
3、relation-specific object tagging module:根據(jù) subject,尋找可能的 relation 和 object。
其中 a 是 Encoder, b 和 c 稱為 Cascade Decoder。
1)BERT Encoder
對(duì)句子編碼,獲取每個(gè)詞的隱層表示,可以采用 BERT 的任意一層,另外這部分是可以替換的,例如用LSTM替換BERT。
2)Subject Tagger
對(duì) BERT Encoder 獲取到的詞的隱層表示解碼,構(gòu)建兩個(gè)二分類分類器預(yù)測(cè) subject 的 start 和 end 索引位置,對(duì)每一個(gè)詞計(jì)算其作為 start 和 end 的一個(gè)概率,并根據(jù)某個(gè)閾值,大于則標(biāo)記為1,否則標(biāo)記為0。公式如下:
如框架圖中所示,Jackie 被標(biāo)記為 start,R 既不是 start 也不是 end, Brown 被標(biāo)記為 end,其他的類似。在這里采用了最近匹配的原則,即與 jackie 最近的一個(gè) end 詞是 Brown, 所以 Jackie R. Brown 被識(shí)別為一個(gè)subject。文中并未考慮前面位置的情況。
3)Relation-specific Object Taggers
這部分會(huì)同時(shí)識(shí)別出subject的relation和相關(guān)的object。
解碼的時(shí)候比 Subject Tagger 不僅僅考慮了 BERT 編碼的隱層向量, 還考慮了識(shí)別出來的 subject 特征,即下圖。vsub 代表 subject 特征向量,若存在多個(gè)詞,將其取向量平均,hn 代表 BERT 編碼向量。
對(duì)于識(shí)別出來的每一個(gè) subject, 對(duì)應(yīng)的每一種關(guān)系會(huì)解碼出其 object 的 start 和 end 索引位置,與 Subject Tagger 類似,公式如下:
理論分析
實(shí)驗(yàn)
驗(yàn)證CASREL框架效果采用的是兩個(gè)公開的數(shù)據(jù)集,NYT 和 WebNLG。具體的實(shí)驗(yàn)效果如下。
其中 CASREL 分別采用了 隨機(jī)初始化參數(shù)的BERT編碼端、 LSTM 編碼端以及預(yù)訓(xùn)練 BERT 編碼端,實(shí)驗(yàn)結(jié)果主要說明以下結(jié)論:
1、CASREL 框架確實(shí)有效,三種編碼結(jié)構(gòu)的效果都是要遠(yuǎn)高于其他的模型性能。
2、采用預(yù)訓(xùn)練 BERT 之后,CASREL 框架更是逆天。
總結(jié)
本文為了解決三元組重疊的情況,提出了新的關(guān)系抽取的方法,cascade binary taging framework(CasRel),和傳統(tǒng)的關(guān)系抽取不同,傳統(tǒng)的關(guān)系抽取是通過兩個(gè)實(shí)體來抽取(離散的)關(guān)系標(biāo)簽,但在這里通過CasRel框架來抽取實(shí)體及實(shí)體間的關(guān)系,最終效果得到了很大的提升。
?
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 参会邀请 - ISWC2020 | 第十
- 下一篇: 论文浅尝 | 基于Universal S