ACL 2019 | 图表示解决长文本关系匹配问题:腾讯提出概念交互图算法
本文作者:Bang Liu、Di Niu等
文章之間關系匹配是自然語言處理領域的重要問題。傳統算法忽略了文本內部語義結構,而深度神經網絡目前主要用于句子對之間的匹配。同時由于長文本對計算量需求較大,且目前缺乏訓練數據集,因此長文本的匹配問題一直難以解決。對此,來自阿爾伯塔大學和騰訊 PCG 移動瀏覽器產品部的研究者提出了概念交互圖(Concept Interaction Graph)算法,對比現有的文章關系匹配算法有明顯的效果提升。該論文已被自然語言處理頂會 ACL 2019 接收,項目代碼和數據集已開源。
判斷兩篇文章之間的語義關系對于新聞系統等應用有著重要的意義。例如,通過對新聞文章之間的關系判斷,一個新聞應用可以將講述同樣的事件的文章聚類在一起,去除冗余,并形成事件發展的脈絡。在圖 1 中,「2016 美國總統大選」這一故事的主要信息被組織成一條故事樹。其中的每個節點,代表了講述該故事中同樣的一個子事件的文章集。這種文本組織方式,在信息爆炸的時代,能給人們帶來極大的便利。
圖 1. 2016 美國總統大選故事脈絡。(圖源自:Growing Story Forest Online from Massive Breaking News)
過去的研究工作,包括傳統的 TF-IDF,BM25,LDA 等等,以及基于神經網絡的 DSSM,C-DSSM,ARC-I,ARC-II 等等,不能很好地解決長文本的關系匹配問題。一方面,傳統算法忽略了長文章內部的語義結構。另一方面,基于深度神經網絡的模型目前主要用于句子對之間的匹配,難以處理文章長度的文本。因為隨著長度的增加,模型計算量大大增加,并且缺乏訓練數據。
針對長文本的匹配問題,我們利用「化整為零,分而治之」的思想,提出了一種文本表示形式。這種表示利用圖結構來分解長文章的內容,將長文章的匹配變成圖中每個節點上的短文本匹配,并利用絡綜合各個節點的匹配結果,得到最終的整體匹配結果。我們把這種圖叫做概念交互圖(Concept Interaction Graph),圖中每個節點稱為一個概念,每個概念是一個關鍵字集合,集合中的關鍵字在文章中緊密相關。而所有的節點則把文章中所有的關鍵字劃分成了多個子集,代表文章的多個子話題。在得到節點之后,我們按照相似度將文章中的每一個句子,分配到不同的節點上。因此,每個節點上會包含兩篇文章的的一部分句子。節點之間的邊則代表節點間的聯系的緊密度。在這里,我們將兩個節點的文本相似度作為邊權重。如圖 2 所示,該例子中包含的關鍵字被組織成三個節點,每個節點上有一部分句子集。
圖 2. 概念交互圖示例
在將長文本利用圖分解之后,每個節點上的匹配可以利用句子匹配模型計算匹配特征,或者手動設計提取特征。為了充分利用文章內的語義結構,我們進一步利用圖卷積神經網絡(Graph Convolutional Network)來綜合各個節點的匹配特征,以得到最終的結果。
最后,目前的工作缺乏針對「長文本對關系」這個問題的實驗數據。為了評估實驗效果,我們構建了兩個分別包含三萬對新聞文章的二分類數據集。第一個數據集用于判斷兩個新聞是否講述同一個子事件,第二個數據集用于判斷兩個新聞是否講述同一個故事。例如,在圖 1 中,任意兩個文章都是講述同一個故事「2016 美國總統大選」的,但是只有屬于同一個節點的文章,才是講述同一個事件的。
我們的主要貢獻點包括:
我們提出了概念交互圖(Concept Interaction Graph)用于表示長文本或者文本對;
結合概念交互圖和圖卷積神經網絡,我們提出了針對長文本匹配的模型。實驗證明該方法對比一系列已有的算法有明顯的效果提升;
我們構建并開源了兩個分別包含三萬對文章的長文本對關系分類數據集,用于后續研究。實驗代碼也已開源。
值得注意的是,我們的算法并不局限于判斷兩篇新聞文章是否講述同一個子事件或者同一個故事。只要有相應的訓練集,它可應用于不同的長文本關系判斷任務。同時,它也可以應用于英語等其他語言。
圖 3. 利用概念交互圖表示文本以及利用 GCN 匹配的算法流程
圖 3 展示了長文本對關系匹配的流程,包括以下步驟:
文本圖構建。在這一步中,我們利用關鍵字在句子中的共現構建 KeyGraph。之后,我們利用社區檢測(community detection)算法將關鍵字聚類(注意,這一步是可選項),每個聚類是一個概念節點。在得到概念節點之后,將句子分配到各個節點上。同時,用節點文本的 TF-IDF 相似度表示邊權重。
節點匹配特征編碼。在這里,我們對每個節點上的文本對(來自兩篇文章的句子集合分別拼接成一個文本)進行匹配,得到匹配特征。我們分別嘗試了 Siamese Encoder 自動學習匹配特征,和計算各種 term-based 特征來作為節點特征向量。
節點特征轉化。在得到每個節點的匹配特征向量之后,我們利用多層 GCN 進行特征轉換。最后一層中,我們將所有節點的特征向量綜合成一個向量(這里采用了 mean aggregation)。
綜合匹配。最后,我們將得到的綜合匹配向量,輸入到一個多層神經網絡分類器中進行關系分類。這里,我們可以拼接來自不同的編碼器的匹配向量,以利用不同的特征。
我們對比了本文的算法和一系列已有的文本匹配算法。同時,我們也對比了一系列本文算法的變種以分析不同部分的影響。表 1 展示了我們的實驗結果。實驗所用的兩個數據集,Chinese News Same Event Dataset (CNSE), Chinese News Same Story Dataset (CNSS) 均已開源。
表 1. 不同算法在 CNSE,CNSS 數據集上的分類效果對比
從表 1 中,我們可以得到以下主要結論:
利用圖分解,將文章化整為零,能明顯提高匹配效果;
利用圖卷積,將局部匹配綜合,能明顯提高匹配效果;
論文:A User-Centered Concept Mining System for Query and Document Understanding at Tencent
論文地址:
https://arxiv.org/abs/1802.07459
相關數據資源:
https://github.com/BangLiu/ArticlePairMatching
摘要:判斷兩個文章之間的關系,例如兩個文章是否在討論同一個事件,對于很多文本理解任務有重要意義。目前的算法較少處理長文本匹配的問題,也缺乏對長文本語義結構的充分利用。我們針對長文本匹配問題,提出了概念交互圖文本表示。結合圖卷積神經網絡,我們提出了有效地處理長文本匹配問題的算法,將長文本化整為零,從局部匹配結果得到整體匹配關系的判斷。同時,我們也構建了新的長文本匹配任務的數據集并開源。實驗證明,我們的算法對比一系列現存的算法,在長文本匹配任務中效果提升明顯。
本文為機器之心發布,轉載已獲得授權。
總結
以上是生活随笔為你收集整理的ACL 2019 | 图表示解决长文本关系匹配问题:腾讯提出概念交互图算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云开发数据库又增新技能!
- 下一篇: 腾讯数平精准推荐 | 横扫ICDAR 2