基于结构化数据的文本生成:非严格对齐生成任务及动态轻量的GCN生成模型
作者|邴立東、程麗穎、付子豪、張琰等
單位|阿里巴巴達(dá)摩院、香港中文大學(xué)等
摘要
基于結(jié)構(gòu)化數(shù)據(jù)生成文本(data-to-text)的任務(wù)旨在生成人類可讀的文本來直觀地描述給定的結(jié)構(gòu)化數(shù)據(jù)。然而,目前主流任務(wù)設(shè)定所基于的數(shù)據(jù)集有較好的對(duì)齊 (well-aligned)關(guān)系,即輸入(i.e. 結(jié)構(gòu)化數(shù)據(jù))和輸出(i.e. 文本)具有相同或很接近的信息量,比如 WebNLG 當(dāng)中的輸入 triple set 和輸出文本所描述的知識(shí)完全匹配。但是,這樣的訓(xùn)練數(shù)據(jù)制作困難且成本很高,現(xiàn)有的數(shù)據(jù)集只限于少數(shù)幾個(gè)特定的領(lǐng)域,基于此訓(xùn)練的模型在現(xiàn)實(shí)應(yīng)用中存在較大的局限性。
因此,我們提出了基于部分對(duì)齊(partially-aligned)樣本的文本生成任務(wù)。部分對(duì)齊數(shù)據(jù)的優(yōu)勢(shì)在于獲取門檻低,可以用自動(dòng)或半自動(dòng)方式構(gòu)造,因而更容易拓展到更多的領(lǐng)域。我們考慮了兩個(gè)對(duì)偶的部分對(duì)齊場(chǎng)景,即輸入數(shù)據(jù)多于文本描述和文本描述多于輸入數(shù)據(jù)。
對(duì)于數(shù)據(jù)多于文本的情況,我們發(fā)布了 ENT-DESC 數(shù)據(jù)集 [1],并且針對(duì)數(shù)據(jù)中存在冗余信息的問題,我們提出了多圖卷積神經(jīng)網(wǎng)絡(luò) (Multi-Graph Convolutional Network)模型來抽取重要信息,生成更為凝練的文本描述。
對(duì)于文本多于數(shù)據(jù)的情況,我們發(fā)布了 WITA 數(shù)據(jù)集 [2],并且針對(duì)訓(xùn)練樣本中文本的多余信息,提出了遠(yuǎn)程監(jiān)督生成(Distant Supervision Generation)框架,以確保基于非嚴(yán)格對(duì)齊樣本訓(xùn)練的模型,在應(yīng)用中能夠如實(shí)地生成給定數(shù)據(jù)的描述。
基礎(chǔ)模型層面,本文將介紹我們提出的輕量、動(dòng)態(tài)圖卷積網(wǎng)絡(luò) (Lightweight, Dynamic Graph Convolutional Networks),簡(jiǎn)稱 LDGCN [3],可以有效的融合圖結(jié)構(gòu)中來自不同階節(jié)點(diǎn)的信息,進(jìn)而學(xué)習(xí)更優(yōu)的圖表示,并提升下游文本生成的效果。
?
參考文獻(xiàn)
[1] ENT-DESC: Entity Description Generation by Exploring Knowledge Graph. Liying Cheng, Dekun Wu, Lidong Bing, Yan Zhang, Zhanming Jie, Wei Lu, Luo Si. EMNLP, 2020.
[2] Partially-Aligned Data-to-Text Generation with Distant Supervision. Zihao Fu, Bei Shi, Wai Lam, Lidong Bing, Zhiyuan Liu. EMNLP, 2020.
[3] Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text Generation. Yan Zhang, Zhijiang Guo, Zhiyang Teng, Wei Lu, Shay B. Cohen, Zuozhu Liu, Lidong Bing. EMNLP, 2020.
非嚴(yán)格對(duì)齊的文本生成:輸入數(shù)據(jù)多于文本描述
論文標(biāo)題:
ENT-DESC: Entity Description Generation by Exploring Knowledge Graph
論文鏈接:
https://www.aclweb.org/anthology/2020.emnlp-main.90.pdf
數(shù)據(jù)代碼連接:
https://github.com/LiyingCheng95/EntityDescriptionGeneration
?
1.1 任務(wù)設(shè)置
本篇論文的基本出發(fā)點(diǎn)是提出一個(gè)實(shí)用的主題化文本生成任務(wù)設(shè)定,而這個(gè)設(shè)定下構(gòu)造的數(shù)據(jù)集具有輸入數(shù)據(jù)多于生成文本的特點(diǎn)。現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)到文本生成的任務(wù)要求輸出的信息在輸入的結(jié)構(gòu)化數(shù)據(jù)中有很充分的體現(xiàn),比如 WebNLG 數(shù)據(jù)集?[1] 等。
這樣的任務(wù)設(shè)定和數(shù)據(jù)準(zhǔn)備在實(shí)際應(yīng)用中均有一定的局限性。而本篇論文所提出的主題化實(shí)體描述生成,是在給定一個(gè)主實(shí)體(main entity)的前提下,通過利用該實(shí)體的多個(gè)附屬主題實(shí)體(topic-related entity),對(duì)生成的主實(shí)體描述進(jìn)行一定的導(dǎo)向和限制,使其符合某一主題。
上圖例子中,紅色框內(nèi)是輸入的主實(shí)體(Bruno Mars)和多個(gè)附屬主題實(shí)體(funk, rock, R&B 等),目標(biāo)是生成符合這一特定主題的文本描述,如藍(lán)色方框所示,來介紹 Bruno Mars 其人以及其音樂風(fēng)格等。為了使生成的描述符合現(xiàn)實(shí)世界的知識(shí),我們依據(jù)輸入實(shí)體,有選擇性地利用知識(shí)圖譜中關(guān)于這些實(shí)體的知識(shí),如綠色方框所示,輔助生成該實(shí)體的主題化描述。本任務(wù)相較于現(xiàn)有的生成任務(wù)更具有實(shí)用性和挑戰(zhàn)性。
?
1.2 ENT-DESC數(shù)據(jù)集
基于這樣的任務(wù)設(shè)定,本篇論文提出了一個(gè)新的數(shù)據(jù)集 ENT-DESC。此數(shù)據(jù)集采用了較為普遍和常規(guī)的維基百科數(shù)據(jù)集和 WikiData 知識(shí)圖譜。
首先,我們用 Nayuki 的工具(https://www.nayuki.io/page/computing-wikipedias-internal-pageranks)去給超過 990 萬維基百科頁面計(jì)算 PageRank。然后我們根據(jù) PageRank 排名,選用了來自于四種主要領(lǐng)域的 11 萬主實(shí)體名詞,以及維基百科第一段文本中帶有超鏈接的名詞作為附屬主題實(shí)體。
我們即用每個(gè)維基百科頁面的第一段文本作為輸出。另外我們利用已有知識(shí)圖譜 Wikidata,選取了主實(shí)體的相鄰實(shí)體,以及主實(shí)體和附屬主題實(shí)體間的 1 跳和 2 跳路徑。據(jù)我們所知,ENT-DESC 是現(xiàn)有知識(shí)圖譜生成文本的類似數(shù)據(jù)集中規(guī)模最大的。其與部分現(xiàn)有數(shù)據(jù)集的比較如下圖所示。
此數(shù)據(jù)集的一大特性為輸入中包含輸出內(nèi)容以外的信息,因此要求模型可以有效選取輸入中更為有用的信息去做生成。有關(guān) ENT-DESC 數(shù)據(jù)集以及其更詳細(xì)的準(zhǔn)備和處理步驟可參閱:
https://github.com/LiyingCheng95/EntityDescriptionGeneration/tree/master/sockeye/data/ENT-DESC%20dataset
?
1.3 MGCN模型
在模型層面,現(xiàn)有序列到序列的文本生成模型不能夠很好地利用圖的結(jié)構(gòu)與信息,而圖到序列模型 [2] 將圖中實(shí)體間的關(guān)系變?yōu)閷?shí)體的參數(shù),此類模型遇到信息丟失和參數(shù)過多的問題。有論文提出了 Levi 圖轉(zhuǎn)換方法 [3],即將原始圖中的關(guān)系轉(zhuǎn)化成點(diǎn),以用于解決前面提到的問題。但是 Levi 圖轉(zhuǎn)化仍然有它自己的缺陷。
在 Levi 圖中,我們不能很好的區(qū)分哪些點(diǎn)是原始圖中的實(shí)體或關(guān)系,并且實(shí)體間的直接聯(lián)系在 Levi 圖中被忽略。另外,不同類型的邊被融合在 Levi 圖中一起學(xué)習(xí),不能很好地區(qū)分不同類型邊的不同重要性。
為了解決現(xiàn)有模型在本篇論文提出的知識(shí)圖譜驅(qū)動(dòng)實(shí)體文本描述生成的任務(wù)上的缺陷,本篇論文采用了編碼-解碼架構(gòu)(encoder-decoder),提出了一種基于多圖卷積神經(jīng)網(wǎng)絡(luò)(Multi-Graph Convolutional Network)的文本生成模型。
在多圖編碼器(Multi-Graph Encoder)中,不同于傳統(tǒng)的圖編碼器,我們疊加了多層多圖卷積神經(jīng)網(wǎng)絡(luò)。每層多圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如左圖所示。我們先將輸入圖嵌入轉(zhuǎn)化為 6 個(gè)不同圖的鄰接矩陣,分別放入 6 個(gè)圖編碼器,以此得到 6 個(gè)包含不同類型信息的圖嵌入。繼而將這些圖嵌入進(jìn)行聚合運(yùn)算,得到下一層的圖嵌入。
解碼器(decoder)是一個(gè)基于標(biāo)準(zhǔn)的長短時(shí)記憶網(wǎng)絡(luò)(LSTM)的文本生成模型。本篇論文中的解碼器對(duì)于在編碼過程中學(xué)習(xí)到的隱藏子圖的特征與結(jié)構(gòu)信息進(jìn)行解碼,并生成相應(yīng)的描述文本。此模型結(jié)構(gòu)有效避免了信息丟失和參數(shù)過多的問題,有選擇性地捕捉了多圖中的重要信息并進(jìn)行了有效聚合。
上圖展示了多圖轉(zhuǎn)化的過程。類似于 Levi 圖轉(zhuǎn)化的過程,我們將原始圖中的邊轉(zhuǎn)化為點(diǎn)。
(1)在 g1:self 圖中,我們給所有的點(diǎn)加一條自循環(huán)的邊。(2)在 g2:default1 圖中,我們把點(diǎn)和邊按原始圖中的默認(rèn)順序進(jìn)行連接。(3)在 g3:reverse1 中,我們將 g2 中的邊進(jìn)行反向連接。(4)在 g4:default2 中,我們將點(diǎn)和點(diǎn)之間按默認(rèn)順序連接。(5)類似地,在 g5:reverse2 中,我們將點(diǎn)和點(diǎn)之間的邊反向相連。(6)最后,我們額外加了全局點(diǎn)(gnode),并把它與圖中其他所有點(diǎn)按圖中方向相連。
它的創(chuàng)新之處在于將原始圖中的點(diǎn)到點(diǎn)、點(diǎn)到邊的正向與反向信息明確地表示在不同圖中,這樣簡(jiǎn)單明了的轉(zhuǎn)化過程對(duì)多圖卷積神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)起到了巨大的幫助作用。
?
1.4 主要實(shí)驗(yàn)結(jié)果
我們?cè)诒酒撐乃岢龅?ENT-DESC 數(shù)據(jù)集和 WebNLG 數(shù)據(jù)集上均實(shí)驗(yàn)了提出的模型。下圖是我們?cè)?ENT-DESC 數(shù)據(jù)集上的主要實(shí)驗(yàn)結(jié)果。
我們與序列到序列生成模型及多種圖到序列生成模型在多種評(píng)測(cè)標(biāo)準(zhǔn)上均做了比較。從表格和圖中,我們可以觀察到,現(xiàn)有圖到序列模型可以達(dá)到 BLEU 值 24.8,現(xiàn)有深層圖到序列模型 [4] 的 BLEU 值為 24.9。而我們的多圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在 6 層時(shí)可以達(dá)到 25.7 的 BLEU 值,加上聚合運(yùn)算后可以達(dá)到 26.4。
由此可見,我們提出的多圖卷機(jī)神經(jīng)網(wǎng)絡(luò)的模型有效地捕捉了知識(shí)圖譜中的重要信息并進(jìn)行了有效聚合。我們進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行了歸一化處理(delexicalization),實(shí)驗(yàn)結(jié)果均有更進(jìn)一步的提升。
另外,此模型在 ENT-DESC 數(shù)據(jù)集以及現(xiàn)有數(shù)據(jù)集上(如:WebNLG)相對(duì)于多個(gè)基準(zhǔn)模型在多個(gè)評(píng)測(cè)標(biāo)準(zhǔn)上均顯示明顯提升,同時(shí)其可被擴(kuò)展應(yīng)用于其他圖相關(guān)的自然語言處理研究中。
上圖展示了知識(shí)驅(qū)動(dòng)文本生成的例子。紅色高亮文本是主要實(shí)體,藍(lán)色高亮文本是附屬主題實(shí)體。與維基百科的參考文本相比,我們提出的多圖卷積神經(jīng)網(wǎng)絡(luò)與聚合運(yùn)算能夠準(zhǔn)確捕捉到主要實(shí)體以及大部分附屬主題實(shí)體。而傳統(tǒng)的圖到序列生成模型未能識(shí)別出主要實(shí)體。這進(jìn)一步體現(xiàn)了傳統(tǒng)圖到序列模型會(huì)造成信息丟失的情況,同時(shí)也體現(xiàn)了多圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)于提取重要信息的有效性。
?
參考文獻(xiàn)
[1] Claire Gardent, Anastasia Shimorina, Shashi Narayan, and Laura Perez-Beltrachini. 2017. The webnlg challenge: Generating text from rdf data. In Proceedings of INLG.
[2] Diego Marcheggiani and Ivan Titov. 2017. Encoding sentences with graph convolutional networks for semantic role labeling. In Proceedings of EMNLP.
[3] Daniel Beck, Gholamreza Haffari, and Trevor Cohn. 2018. Graph-to-sequence learning using gated graph neural networks. In Proceedings of ACL.
[4] Zhijiang Guo, Yan Zhang, Zhiyang Teng, and Wei Lu. 2019. Densely connected graph convolutional networks for graph-to-sequence learning. TACL.
非嚴(yán)格對(duì)齊的文本生成:文本描述多于輸入數(shù)據(jù)
論文標(biāo)題:
Partially-Aligned Data-to-Text Generation with Distant Supervision
論文鏈接:
https://www.aclweb.org/anthology/2020.emnlp-main.738.pdf
數(shù)據(jù)代碼鏈接:
https://github.com/fuzihaofzh/distant_supervision_nlg
?
2.1 簡(jiǎn)介
在基于結(jié)構(gòu)化數(shù)據(jù)生成文本(data-to-text)[1,2] 任務(wù)中,現(xiàn)有的模型要求訓(xùn)練的數(shù)據(jù)和文本是嚴(yán)格對(duì)齊的(well-aligned),導(dǎo)致可以用于訓(xùn)練的數(shù)據(jù)非常稀少且標(biāo)注代價(jià)高昂,因此,現(xiàn)有的經(jīng)典生成任務(wù)只限于少數(shù)幾個(gè)特定的領(lǐng)域。
本文旨在探索使用部分對(duì)齊(partially-aligned)的數(shù)據(jù)來解決數(shù)據(jù)稀缺的問題。部分對(duì)齊的數(shù)據(jù)可以自動(dòng)爬取、標(biāo)注,從而能將文本生成任務(wù)推廣到更多的數(shù)據(jù)稀缺的領(lǐng)域。但是,直接使用此類數(shù)據(jù)來訓(xùn)練現(xiàn)有的模型會(huì)導(dǎo)致過度生成的問題(over-generation),即在生成的句子中添加與輸入無關(guān)的內(nèi)容。
為了使模型能夠利用這樣的數(shù)據(jù)集來訓(xùn)練,我們將傳統(tǒng)的生成任務(wù)擴(kuò)展為“部分對(duì)齊的數(shù)據(jù)到文本生成的任務(wù)”(partially-aligned data-to-text generation task),因?yàn)樗米詣?dòng)標(biāo)注的部分對(duì)齊數(shù)據(jù)進(jìn)行訓(xùn)練,因此可以很好地被應(yīng)用到數(shù)據(jù)稀缺領(lǐng)域。
為了解決這一任務(wù),我們提出了一種新的遠(yuǎn)程監(jiān)督(distant supervision)訓(xùn)練框架,通過估計(jì)輸入數(shù)據(jù)對(duì)每個(gè)目標(biāo)詞的支持度,來自動(dòng)調(diào)節(jié)相應(yīng)的損失權(quán)重,從而控制過度生成的問題。我們通過從 Wikipedia 中抽取句子并自動(dòng)提取相應(yīng)的知識(shí)圖譜三元組的方式制作了部分對(duì)齊的 WITA 數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果表明,相較于以往的模型,我們的框架能更好地使用部分對(duì)齊的數(shù)據(jù),緩解了過度生成問題,從而驗(yàn)證了使用部分對(duì)齊的數(shù)據(jù)來訓(xùn)練生成模型的可行性。本文的數(shù)據(jù)和源代碼可以從下方鏈接獲取:
https://github.com/fuzihaofzh/distant_supervision_nlg
?
2.2 WITA數(shù)據(jù)集
我們通過抽取 Wikipedia 句子中的三元組來自動(dòng)構(gòu)建部分對(duì)齊的數(shù)據(jù)集。整個(gè)抽取框架如圖所示。
首先,我們提取出 Wikipedia 每篇文章的第一個(gè)句子,隨后,我們用實(shí)體檢測(cè)器(Entity Detector)來抽取出每個(gè)句子所包含的所有實(shí)體,該實(shí)體檢測(cè)器包含三個(gè)部分,分別是鏈接檢測(cè),NER 檢測(cè)以及名詞檢測(cè),其中 NER 檢測(cè)和名詞檢測(cè)通過 spaCy 實(shí)現(xiàn)。接著,這些名詞經(jīng)過一些規(guī)則過濾后,兩兩組合(笛卡爾積)得到了實(shí)體對(duì)(Entity Pair)的列表。
另一方面,我們將 Wikidata 導(dǎo)入到 ElasticSearch,Wikidata 是一個(gè)知識(shí)圖譜的庫,包含了很多客觀信息的三元組描述。
我們用每個(gè)三元組的頭尾實(shí)體對(duì)做索引,用整個(gè)三元組做值,這樣一旦給定一個(gè)實(shí)體對(duì),我們就能方便地通過查詢 ElasticSearch 得到他們之間的三元組關(guān)系。我們將笛卡爾積中的每個(gè)實(shí)體對(duì)輸入到 ElasticSearch 中查詢他們的關(guān)系,通過一些規(guī)則過濾,得到最終句子對(duì)應(yīng)的三元組。
下表是我們的新的數(shù)據(jù)集(WITA)和現(xiàn)有的數(shù)據(jù)集 WebNLG [1] 的對(duì)比。我們發(fā)現(xiàn),我們的數(shù)據(jù)集比 WebNLG 大,同時(shí)包含的關(guān)系種類(Relation Type)是 WebNLG 的兩倍,含有的實(shí)體種類是 WebNLG 的 40 倍,而包含的詞典大小也是 WebNLG 的 12 倍。因此 WITA 數(shù)據(jù)集包含有更廣闊領(lǐng)域的信息。
然而,這種自動(dòng)標(biāo)注的數(shù)據(jù)并不是嚴(yán)格對(duì)齊的,如圖所示,因?yàn)楹芏嘈畔?Wikidata 中并不包含,所以文本會(huì)包含比三元組多的信息。直接使用此類數(shù)據(jù)來訓(xùn)練現(xiàn)有的模型會(huì)導(dǎo)致過度生成的問題(over-generation)。
在圖中,文本中紅色的部分是三元組中未包含的信息,普通的生成模型會(huì)錯(cuò)誤地認(rèn)為這些信息是由給定三元組的某些部分給出的,因此,在使用訓(xùn)練好的模型做生成時(shí),給定一些數(shù)據(jù),它會(huì)生成額外的未提及的信息。
以下圖為例,訓(xùn)練數(shù)據(jù)中“develpoed in Canada”就沒有對(duì)應(yīng)的三元組描述,模型會(huì)錯(cuò)誤地將其綁定到給定的 genre 三元組中,因此,在生成關(guān)于另一個(gè) genre 三元組的描述時(shí),就可能會(huì)加上這個(gè)冗余的信息。我們提出了遠(yuǎn)程監(jiān)督生成框架(Distant Supervision Generation)來解決這個(gè)問題。
2.3 模型框架
如圖所示,我們的遠(yuǎn)程監(jiān)督生成框架(Distant Supervision Generation framework)包含了四個(gè)模塊:
1)支持度估計(jì)器(Supportiveness Estimator,SE);2)序列到序列生成器(Sequence-to-Sequence Generator,S2SG);3)支持度適配器(Supportiveness Adaptor,SA);4)重平衡集束搜索(Rebalanced Beam Search,RBS)。下面我們分別來看每個(gè)模塊的作用。
SE 模塊主要負(fù)責(zé)計(jì)算輸入數(shù)據(jù)對(duì)目標(biāo)文本中每個(gè)詞的支持度。如圖所示, 是文本序列, 是輸入數(shù)據(jù),我們首先采樣一個(gè)負(fù)樣本文本 ,然后得出他們對(duì)應(yīng)的特征矩陣 以及這些特征矩陣之間的點(diǎn)積矩陣 和 。其中, 的每個(gè)元素表示輸入數(shù)據(jù)中的每個(gè)詞對(duì)目標(biāo)文本中的每個(gè)詞的支持度,接著我們計(jì)算出輸入數(shù)據(jù)整體對(duì)每個(gè)目標(biāo)詞的支持度為 。我們優(yōu)化的目標(biāo)即是最大化正負(fù)樣本的支持度差異 。除此之外,我們還提出了另外兩個(gè)優(yōu)化目標(biāo),其一是詞一致性損失(word-consistent loss):
它的含義是,如果輸入三元組和目標(biāo)文本中含有相同的詞,那么矩陣 對(duì)應(yīng)的元素會(huì)變大。另一個(gè)是集中損失(concentration loss):
這項(xiàng)損失防止三元組中的某個(gè)詞支持太多的目標(biāo)文本詞。最后,總體的優(yōu)化目標(biāo)是以上損失的加權(quán)組合:
S2SG 模塊主要負(fù)責(zé)文本生成,我們通過 Transformer [3] 來實(shí)現(xiàn)。
SA 模塊將 SE 模塊得出的支持度適配到 S2SG 的每個(gè)詞的損失上
其中 是三元組對(duì)第 i 個(gè)目標(biāo)詞的支持度,而 則是第 i 個(gè)詞對(duì)應(yīng)的損失。
RBS 模塊主要應(yīng)用在生成環(huán)節(jié),我們對(duì)每一個(gè)詞計(jì)算一個(gè)輸入三元組的支持度 ,然后我們重新計(jì)算每個(gè)詞的概率為 ,其中 是一個(gè)可調(diào)的參數(shù)。
?
2.4 主要實(shí)驗(yàn)結(jié)果
?
下表是主要實(shí)驗(yàn)結(jié)果,我們對(duì)比了一些常見的生成模型,其中 S2S [4] 采用基于 LSTM 的 sequence-to-sequence 模型,而 S2ST [3,5] 則是基于 Transformer 的生成模型,DSG-A 和 DSG-H 則是分別采用 Attention Adaptor 和 Hard Adaptor。
通過對(duì)比,我們發(fā)現(xiàn),加入 Supportiveness Adaptor 之后,系統(tǒng)的性能都有所提升,而我們提出支持度計(jì)算和適配的方法取得了最好的效果。通過消融實(shí)驗(yàn),我們可以觀察到 RBS 和 SA 都明顯地提升了模型效果。
下圖是對(duì)比了我們的支持度和傳統(tǒng)注意力值的熱力圖。我們可以看到,因?yàn)樽⒁饬C(jī)制本身有歸一化的約束,導(dǎo)致了一個(gè)詞的支持度之和是固定的,這樣,如果有很多詞支持,就會(huì)分散支持的權(quán)重,因而我們的支持度計(jì)算方法比直接用注意力當(dāng)支持度能更好地反應(yīng)支持度的強(qiáng)弱。
為了更直觀地展示 DSG 模型能很好地解決過度生成問題。我們采樣了一些輸出結(jié)果作對(duì)比,通過把和輸入不相關(guān)的生成部分用紅字標(biāo)出,可以發(fā)現(xiàn),如果直接用 WITA 數(shù)據(jù)來訓(xùn)練傳統(tǒng)的 S2ST 模型,生成的時(shí)候會(huì)產(chǎn)生很嚴(yán)重的過度生成的問題,而我們提出的 DSG 模型則能很好地解決這個(gè)問題,取得好的生成效果。
參考文獻(xiàn)
[1] Claire Gardent, Anastasia Shimorina, Shashi Narayan, and Laura Perez-Beltrachini. 2017. Creating training corpora for nlg micro-planners. ACL.
[2] Remi Lebret, David Grangier, and Michael Auli. 2016. Neural text generation from structured data with application to the biography domain. EMNLP.
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. NIPS.
[4] Anastasia Shimorina and Claire Gardent. 2018. Handling rare items in data-to-text generation. INLG.
[5] Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. 2019. fairseq: A fast, extensible toolkit for sequence modeling. NAACL.
輕量、動(dòng)態(tài)圖卷積網(wǎng)絡(luò)及其在文本生成中的應(yīng)用
論文標(biāo)題:
Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text Generation.
論文鏈接:
https://www.aclweb.org/anthology/2020.emnlp-main.169.pdf
代碼鏈接:
https://github.com/yanzhangnlp/LDGCNs
?
3.1 簡(jiǎn)介
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks)是學(xué)習(xí)圖表示的一類強(qiáng)大方法,已應(yīng)用于許多自然語言處理任務(wù)中,例如信息抽取,情感識(shí)別和文本生成。圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks),是圖神經(jīng)網(wǎng)絡(luò)中的一種。
相比于圖循環(huán)網(wǎng)絡(luò)(Graph Recurrent Networks) 以及最近的圖變換網(wǎng)絡(luò)(Graph Transformer Networks), ?圖卷積網(wǎng)絡(luò)具有更好的計(jì)算效率。但由于圖卷積網(wǎng)絡(luò)遵循鄰接信息(First-order)傳遞機(jī)制,對(duì)高階信息的融合不如圖循環(huán)網(wǎng)絡(luò)和圖變換網(wǎng)絡(luò)。
為此,我們提出了一種動(dòng)態(tài)融合機(jī)制,可以有效的融合圖結(jié)構(gòu)中來自不同階節(jié)點(diǎn)的信息。具體地,我們利用了門控機(jī)制動(dòng)態(tài)接受圖結(jié)構(gòu)中不同階節(jié)點(diǎn)的信息流,從而可以同時(shí)融合低階和高階的信息。例外,我們還提出了兩種參數(shù)共享機(jī)制,減少了模型的復(fù)雜度,提高了模型的效率。
結(jié)合動(dòng)態(tài)融合機(jī)制和參數(shù)共享機(jī)制的圖卷積網(wǎng)絡(luò),我們稱之為輕量、動(dòng)態(tài)圖卷積網(wǎng)絡(luò)(Lightweight, Dynamic Graph Convolutional Networks),簡(jiǎn)稱 LDGCN。
我們?cè)?AMR-to-Text Generation 這一類文本生成任務(wù)中進(jìn)行了實(shí)驗(yàn)。AMR(Abstract Meaning Representation)是一種將句子的語義抽象表示的有根有向圖(rooted directed graph),其中節(jié)點(diǎn)(nodes)是概念(concept),邊(edges)是語義關(guān)系(semantic relations)。
AMR-to-Text Generation 是將 AMR 圖編碼并解碼成表達(dá)其含義的文本。這個(gè)任務(wù)的關(guān)鍵挑戰(zhàn)在于如何有效捕獲基于圖的數(shù)據(jù)中存儲(chǔ)的復(fù)雜結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果表明,我們的模型 LDGCN, 不僅性能優(yōu)于其他圖神經(jīng)網(wǎng)絡(luò)模型,而且模型十分輕便,參數(shù)量遠(yuǎn)少于性能最好的圖變換網(wǎng)絡(luò)模型。
3.2 模型框架
3.2.1 動(dòng)態(tài)融合機(jī)制?
傳統(tǒng)的圖卷積網(wǎng)絡(luò)受限于鄰接信息傳遞機(jī)制,忽略了高階有效信息,受門控線性單元(Gated Linear Units)的啟發(fā) [1],我們提出了動(dòng)態(tài)融合機(jī)制。該機(jī)制可以讓圖卷積網(wǎng)絡(luò)融合來自不同階節(jié)點(diǎn)的信息同時(shí)保留模型的非線性特性。如上圖所示,模型工作流程如下。每一個(gè)圖卷積層均以 k 個(gè) k 階鄰接矩陣為輸入(這里 k=3), ?動(dòng)態(tài)融合機(jī)制,利用門控方式,整合從 1 到 k 跳鄰居的信息,其函數(shù)表示如下:
其中, G 是一個(gè)基于高階鄰接矩陣信息的門控矩陣,表示為:
3.2.2 參數(shù)共享機(jī)制
深度圖卷積網(wǎng)絡(luò)一般能夠表現(xiàn)出更好的性能,但越深的網(wǎng)絡(luò)也會(huì)導(dǎo)致更多的參數(shù),從而增加了計(jì)算上的復(fù)雜度。為了提高模型的效率,我們提出了圖分組卷積(Group Graph Convolution)和權(quán)重綁定卷積(Weight Tied Convolutions)兩種參數(shù)共享機(jī)制。其中,圖分組卷積用于減少每一層圖卷積網(wǎng)絡(luò)的參數(shù)而權(quán)重綁定卷積則用于層與層之間參數(shù)的共享。
受分組卷積 [2] 的啟發(fā),我們提出了兩種在圖卷積網(wǎng)絡(luò)上的拓展,即深度圖分組卷積(Deepthwise Group Graph Convolution)和層級(jí)圖分組卷積(Layerwise Group Graph Convolution).
如上圖所示,對(duì)于深度圖分組卷積,輸入表示和輸出表示被分成了不相交的 n 組(這里 n=3)進(jìn)行計(jì)算。將三組表示拼接則為輸出層表示。這樣每一層的參數(shù)可以減少 n 倍。
層級(jí)圖分組卷積是基于最近的密集連接圖卷積網(wǎng)絡(luò) [3] 提出的。如上圖所示,在密集連接圖卷積中,每一層的輸入來自于之前所有卷積層輸出拼接而成。而層級(jí)圖分組卷積在此基礎(chǔ)之上,還將輸入表示分成了 n 組(這里 n=3)進(jìn)行計(jì)算。
啟發(fā)于最近的權(quán)重綁定自注意力網(wǎng)絡(luò) [4],我們提出了權(quán)重綁定圖卷積。如上圖所示,在權(quán)重綁定圖卷積中,每一層都使用相同的參數(shù)。從而較大地節(jié)省了模型的參數(shù)。
3.3 主要實(shí)驗(yàn)結(jié)果
基于不同的參數(shù)共享機(jī)制,我們分別命名為 LDGCN_WT(Weight Tied)和LDGCN_GC(Group Convolution)。我們主要在兩個(gè)標(biāo)準(zhǔn)的 AMR 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn), 即 AMR2015(LDC2015E86)和 AMR2017(LDC2017T10)。
上面表 1 展示了兩個(gè)數(shù)據(jù)集上的結(jié)果(B, C, M 和 #P 分別代表 BLEU, CHRF++, METEOR 和模型的參數(shù)量)。我們的模型 LDGCN_GC 在兩個(gè)數(shù)據(jù)集上都取得了最好的結(jié)果。而且相比當(dāng)前最好的圖變換網(wǎng)絡(luò)模型 GT_SAN,我們的模型只需要大約五分之一的參數(shù)。而相比于其他圖卷積網(wǎng)絡(luò),我們的模型也都遠(yuǎn)遠(yuǎn)強(qiáng)于當(dāng)前最好的模型 DCGCN 以及 DualGraph。
表 2 展示了模型在大規(guī)模數(shù)據(jù)集上的結(jié)果。可以看到,我們模型 LDGCN_WT,優(yōu)于當(dāng)前最好的 Transformer 模型,且只使用了其四分之一數(shù)據(jù)(0.5M)。而與表1結(jié)果不同的是,在使用較大數(shù)據(jù)的情況下,LDGCN_WT 效果優(yōu)于 LDGCN_GC。我們推測(cè),足夠的數(shù)據(jù)可以提供足夠的正則化來減少震蕩,穩(wěn)定 LDGCN_WT 的訓(xùn)練過程。
參考文獻(xiàn)
[1] Yann Dauphin, Angela Fan, Michael Auli, and David Grangier. 2016. Language modeling with gated convolutional networks. In Proc. of ICML.
[2] Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. 2017. Mobilenets: Efficient convolutional neural networks for mobile vision applications. ArXiv, abs/1704.04861.
[3] Zhijiang Guo, Yan Zhang, Zhiyang Teng, and Wei Lu. 2019b. Densely connected graph convolutional networks for graph-to-sequence learning. Transactions of the Association for Computational Linguistics, 7:297–312.
[4] Shaojie Bai, J. Zico Kolter, and Vladlen Koltun. 2019a. Deep equilibrium models. In Proc. of NeurIPS.
總結(jié)
文本生成作為近年來引起廣泛關(guān)注的研究課題,有著豐富的應(yīng)用場(chǎng)景。基于結(jié)構(gòu)化數(shù)據(jù)和知識(shí)的文本生成是一個(gè)重要的研究方向。本文探索的非嚴(yán)格對(duì)齊的文本生成任務(wù)設(shè)定,給基于知識(shí)的文本生成任務(wù)引入了更實(shí)用化的新發(fā)展,我們公布了兩個(gè)新數(shù)據(jù)集以支持這方面的研究。另外,本文介紹的輕量、動(dòng)態(tài) GCN 模型 LDGCN,不但可以有效的融合圖結(jié)構(gòu)中來自不同階節(jié)點(diǎn)的信息,還可以通過參數(shù)共享機(jī)制,提高 GCN 模型的效率。
本文由阿里巴巴達(dá)摩院新加坡 NLP 團(tuán)隊(duì)邴立東、程麗穎、張琰,香港中文大學(xué)付子豪共同整理而成。由 PaperWeekly 編輯進(jìn)行了校對(duì)和格式調(diào)整。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的基于结构化数据的文本生成:非严格对齐生成任务及动态轻量的GCN生成模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度发布全新桌面版机器学习开发环境,12
- 下一篇: 什么是终端占有率 即终端的市场份额