论文浅尝 | 将结构预测作为增广自然语言间的翻译任务
筆記整理 |?葉宏彬,浙江大學計算機博士生
論文地址:https://openreview.net/pdf?id=US-TP-xnXI
摘要:我們提出了一個新的框架,即增強自然語言之間的翻譯(Translation-between-Augmented Natural Languages,TANL)來解決許多結構化預測語言任務,包括聯合實體和關系提取、嵌套命名實體識別、關系分類、語義角色標注、事件提取、共指消解和對話狀態跟蹤。我們沒有訓練特定于任務的區分分類器來解決這個問題,而是將其框架化為一個增強自然語言之間的翻譯任務,從中可以很容易地提取與任務相關的信息。我們的方法可以在所有任務上匹配或優于任務特定模型,特別是在聯合實體和關系提取(CoNLL04、ADE、NYT和ACE2005數據集)、關系分類(FewRel和TACRED)和語義角色標記(CoNLL-2005和CoNLL2012)方面取得了最新的成果。我們在為所有任務使用相同的體系結構和超參數,甚至訓練單個模型同時解決所有任務(多任務學習)的情況下實現了這一點。最后,我們表明,由于更好地使用了標簽語義,我們的框架還可以在低資源情況下顯著提高性能。
動機
結構化預測是指輸出空間由結構化對象組成的推理任務,例如表示實體及其關系的圖。在自然語言處理中,結構化預測涉及到實體和關系提取、語義角色標注和共指消解等廣泛的問題。例如,如圖1,我們展示了兩個結構預測任務(聯合實體和關系提取以及共指消解任務):
圖1 結構預測任務示例
大多數方法通過在諸如BERT之類的預訓練變換編碼器的基礎上,對各種類型的關系或屬性使用特定于任務的鑒別器來處理結構化預測。然而,這有兩個局限性。首先,有區別的分類器不能很容易地利用預先訓練的模型可能已經具有的關于任務標簽的語義的潛在知識。例如,知道一個人可以寫一本書將大大簡化學習作者關系在上述例子。然而,判別模型通常是在不知道標簽語義的情況下訓練的(它們的目標是類號),從而防止了這種正遷移。第二,由于判別模型的結構適合于特定的任務,因此很難訓練單個模型來解決多個任務,或者在不改變判別器的特定于任務的組件的情況下從一個任務微調模型到另一個任務(轉移學習)。因此,作者想解決的主要問題是:能否設計一個框架來解決不同的問題。
方法
在本文中,作者提出了一個 text-to-text的模型來解決這個問題,通過將其框架化為增強自然語言(TANL)之間的翻譯任務。圖2顯示了在三個不同的結構化預測任務的情況下,如何在的框架內處理前面的示例。增廣語言的設計使得在輸入中對結構化信息(如相關實體)進行編碼,并將輸出文本解碼為結構化信息變得容易。實驗表明,開箱即用的Transformer模型可以很容易地學習這種增強的語言翻譯任務。事實上,作者成功將框架應用于廣泛的結構化預測問題,在許多數據集上獲得了最新的結果。在所有任務上都使用相同的體系結構和超參數,任務之間的唯一區別是增強的自然語言格式。這與以前使用特定任務區分模型的方法不同。輸入和輸出格式的選擇是至關重要的:通過使用盡可能接近自然語言的格式的注釋。嵌套實體和任意數量的關系也可以巧妙地處理,作者實現了一個對齊算法,將從輸出句子中提取的結構信息與輸入句子中相應的標記進行魯棒匹配。
圖2 增強自然語言框架
以聯合實體和關系抽取任務為例,如圖3。給定一個句子,這個任務的目的是提取一組實體和一組實體對之間的關系。每個預測的實體和關系必須分配給一個實體或關系類型。為此任務設計的增強自然語言所需的輸出復制了輸入語句,并使用可解碼為結構化對象的模式對其進行擴充,由一個實體和一些可能的關系組成的每個組都由特殊標記[]括起來。一系列分隔的標記以“X=Y”格式描述實體類型和關系列表,其中X是關系類型,Y是另一個實體(關系的尾部)。此外文中也列出了命名實體識別、關系分類、語義角色標注、共指消解、事件提取、對話狀態跟蹤這些任務各自的表示形式。
圖3 聯合實體和關系抽取任務
面對嵌套實體和多重關系這一特殊情況,如圖4。嵌套模式允許我們表示實體的層次結構。在ADE數據集中的以下示例中,實體“lithium toxicity”屬于disease類型,并且具有drug類型的子實體“lithium”。“lithium toxicity”實體涉及多種關系:一種是與“acyclovir”實體的effect類型,另一種是與“lithium”實體的effect類型。一般來說,輸出中的關系可以以任何順序出現。
圖4 嵌套實體和多重關系
解碼結構化對象過程中。一旦模型生成了一個擴充自然語言格式的輸出句子,就對該句子進行解碼以獲得預測的結構化對象,如下幾點:
1.移除所有特殊標記并提取實體類型和關系,以生成干凈的輸出。如果生成的句子的一部分格式無效,則該部分將被丟棄。
2.使用基于動態規劃(DP)的Needleman-Wunsch對齊算法在令牌級別匹配輸入語句和清潔的輸出語句。然后,我們使用這種對齊來識別與原始輸入語句中的實體相對應的標記。該過程提高了模型對潛在不完美生成的魯棒性。
3.對于輸出中提出的每個關系,搜索與預測尾部實體完全匹配的最近實體。如果這樣的實體不存在,則丟棄關系。
4.丟棄其預測類型不屬于依賴于數據集的類型列表的實體或關系。
實驗
總結與討論
1.本文的統一文本到文本的結構化預測方法可以在一個簡單的框架內處理所有需要考慮的任務,并在低資源環境下提供額外的好處。與文獻中常見的傳統模型不同,TANL是生成性的,因為它在增強的自然語言中從輸入轉換為輸出。這些擴充語言是靈活的,可以被設計來處理各種各樣的任務。這給融入知識圖譜工作帶來了啟發。
2.生成模型,特別是序列到序列模型,已經成功地應用于許多自然語言處理問題,如機器翻譯、文本摘要等。這些任務涉及從一種自然語言輸入到另一種自然語言輸出的映射。然而,序列建模在結構化預測中的應用卻很少受到重視。這可能是因為人們認為,生成方法過于不受約束,而且生成與結構化對象相對應的精確輸出格式不是一種可靠的方法,或者它可能會在區分性模型方面增加不必要的復雜性。作者證明這是完全相反的。生成方法可以很容易地處理不同的任務,即在同一時間,可以輸出適合每個任務的特定結構,并且格式錯誤的情況也很少,給生成任務帶來更多的拓展空間。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 将结构预测作为增广自然语言间的翻译任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - AAAI2021 | 基于
- 下一篇: 论文浅尝 | GMNN: Graph M