ACL 2021 | 复旦大学邱锡鹏组:面向不同NER子任务的统一生成框架
?作者?|?劉興賢
學(xué)校?|?北京郵電大學(xué)碩士生
研究方向?|?自然語(yǔ)言處理
論文題目:
A Unified Generative Framework for Various NER Subtasks
論文地址:
https://arxiv.org/abs/2106.01223
代碼repo:
https://github.com/yhcc/BARTNER
該論文被收錄于 ACL 2021 主會(huì),作者是來(lái)自復(fù)旦大學(xué)的邱錫鵬老師組。
先插句題外話,本文的圖示是我最近看過(guò)的文章里表意最明確的一篇,幾乎只看圖就能了解文章表達(dá)的意思。
Main Idea
圖 abc 分別展示了 NER 的 flat NER(簡(jiǎn)單、扁平實(shí)體抽取)、nested NER(嵌套實(shí)體抽取)、discontinuous NER(不連續(xù)實(shí)體抽取)三種不同的子任務(wù)。
而對(duì)于這樣復(fù)雜的子任務(wù),無(wú)法使用傳統(tǒng)的標(biāo)記方法將其納入同一個(gè)框架。因此,本文使用了指針?lè)绞?/strong>,使用將標(biāo)注任務(wù)轉(zhuǎn)化為一個(gè)序列生成任務(wù)(本文的主要貢獻(xiàn)也正在這里),并使用了 seq2seq 的范式來(lái)進(jìn)行生成,生成過(guò)程使用了預(yù)訓(xùn)練模型 BART,這是一個(gè)利用從被破壞掉的文本中還原文本的任務(wù)作為預(yù)訓(xùn)練目標(biāo)的模型。
Abstract
命名實(shí)體識(shí)別(NER)是識(shí)別代表句子中實(shí)體的跨度的任務(wù)。無(wú)論實(shí)體跨度是嵌套的還是不連續(xù)的,NER 任務(wù)都可以分為 Flat NER、嵌套 NER 和不連續(xù) NER 子任務(wù)。這些子任務(wù)主要通過(guò)令牌級(jí)序列標(biāo)記或跨度級(jí)分類來(lái)解決。然而,這些解決方案很難同時(shí)處理三種 NER 子任務(wù)。
為此,我們提出將 NER 子任務(wù)描述為實(shí)體跨序列生成任務(wù),該任務(wù)可以通過(guò)一個(gè)統(tǒng)一的序列到序列(Seq2Seq)框架來(lái)解決。基于我們的統(tǒng)一框架,我們可以利用預(yù)先訓(xùn)練的 Seq2Seq 模型來(lái)解決所有三種類型的 NER 子任務(wù),而不需要特別設(shè)計(jì)標(biāo)記模式或枚舉跨度的方法。
我們利用三種類型的實(shí)體表示將實(shí)體線性化為序列。我們提出的框架易于實(shí)現(xiàn),并在 8 個(gè)英語(yǔ) NER 數(shù)據(jù)集上實(shí)現(xiàn)了 SOTA 或接近 SOTA 的性能,包括兩個(gè) flat NER 數(shù)據(jù)集、三個(gè)嵌套 NER 數(shù)據(jù)集和三個(gè)不連續(xù) NER 數(shù)據(jù)集。
Contribution
本文提出了一種統(tǒng)一的生成式的框架來(lái)解決 flat NER、nested NER、discontinuous NER 三種不同的子任務(wù)。
將預(yù)訓(xùn)練的 seq2seq 模型 BART 融入框架,并利用三種實(shí)體表示將實(shí)體線性化為一個(gè)序列,對(duì)探索 BART 在實(shí)體序列生成中的應(yīng)用提供了一定的參考價(jià)值。
避免了復(fù)雜的標(biāo)記,而是使用指針?lè)绞竭M(jìn)行標(biāo)記,并在 8 個(gè)英文數(shù)據(jù)集上達(dá)到或接近 SOTA。
Method
這個(gè)圖還是很容易看明白的(這張圖畫的真好看hhh)。
輸入是句子 token,然后得到 token embedding 以及 position embedding,然后喂給一個(gè) BART Encoder,將 encode 出的隱層狀態(tài)過(guò)一個(gè) MLP 與 token 單純的 token embedding 做加權(quán)。
本文將 token 與 tag 的序號(hào)分開,上面是 token 部分,而 tag 部分也簡(jiǎn)單的得到其tag embedding(與 token 部分使用同一套參數(shù))。
分別得到 token 與 tag的表示后,與 decoder 的當(dāng)前隱層狀態(tài)做點(diǎn)積,然后 concat,過(guò)一個(gè) softmax 層得到最終所有 token 以及 tag 的分布。
使用該分布進(jìn)行生成,得到 token 或者 tag 的序列,并將其解析成抽取出的實(shí)體及類型(解析方法如下圖所示)。
最終使用負(fù)對(duì)數(shù)似然函數(shù)來(lái)作為損失函數(shù),更新參數(shù)。
BART 訓(xùn)練過(guò)程中使用了 BPE(用不在句子中出現(xiàn)過(guò)的 token 代替頻繁出現(xiàn)的 token 序列)。
此外,本文測(cè)試了三種基于指針的定位原始句子中實(shí)體的方法:
Span:實(shí)體每個(gè)起始點(diǎn)與結(jié)束點(diǎn),若不連續(xù)則連著寫
BPE:所有的Token位置
Word:只記錄開始位置
Experiment
▲ 針對(duì)flat NER的實(shí)驗(yàn)結(jié)果
▲ 針對(duì)nested NER的實(shí)驗(yàn)結(jié)果
▲ 針對(duì)discontinuous NER的實(shí)驗(yàn)結(jié)果
▲?總體實(shí)驗(yàn)結(jié)果
此外,本文還研究了實(shí)體在句子中出現(xiàn)的順序與召回率的關(guān)系。
可以看到,在 flat NER 與 discontinuous NER 中,召回率都明顯的隨著位置出現(xiàn)的靠后而增加,但嵌套 NER 的情況明顯比較復(fù)雜。
原因其實(shí)可以想見,后一位置中的實(shí)體可以是包含前一實(shí)體的更復(fù)雜的實(shí)體。對(duì)前一實(shí)體的錯(cuò)誤預(yù)測(cè)可能會(huì)對(duì)后一實(shí)體產(chǎn)生負(fù)面影響。
▲ 實(shí)體在句子中出現(xiàn)的位置順序與召回率的關(guān)系
Conclusion
本文將 NER 子任務(wù)描述為一個(gè)實(shí)體生成序列生成問(wèn)題,從而可以使用統(tǒng)一的 Seq2Seq 模型和指針機(jī)制來(lái)處理扁平的、嵌套的和不連續(xù)的 NER 子任務(wù)。Seq2Seq 方式使得能夠順利地整合訓(xùn)練前的 Seq2Seq 模型 BART,以提高性能。
為了更好地利用 BART,本文測(cè)試了三種類型的實(shí)體表示方法,以將實(shí)體跨度線性化為序列。結(jié)果表明,長(zhǎng)度更短、更接近連續(xù) BPE 序列的實(shí)體表示具有更好的性能。本文提出的方法在 8 個(gè)不同的 NER 數(shù)據(jù)集上都達(dá)到了 SOTA 或接近 SOTA 的性能,證明了它對(duì)各種 NER 子任務(wù)的通用性。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的ACL 2021 | 复旦大学邱锡鹏组:面向不同NER子任务的统一生成框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 厨房能用聚脲美缝吗,哪个牌子好?
- 下一篇: 青岛胶东机场做大巴大约多长时间能到李村东