论文浅尝 | 面向单关系事实问题的中文问答模型
來源:NLPCC 2017
論文下載地址:http://tcci.ccf.org.cn/conference/2017/papers/2003.pdf
動機
開放領域的QA問題是一個被廣泛研究的問題,而且目前這個問題并沒有被很好地解決。在中文領域,相關的數據集并不多。而NLPCC開放了一個KBQA比賽,為中文KBQA提供了一個很好的數據集。本文使用了基于特征的方法來完成實體鏈接,并基于詞向量對候選謂詞進行初篩。之后,文章采用了深度CNN模型來重排實體-謂詞對,從而找到最正確的實體-謂詞。
貢獻
文章的貢獻有:
(1)提出了一種基于特征的實體鏈接方法;
(2)提出了一種基于詞向量的候選謂詞初篩方法;
(3)提出了一種基于深度CNN的謂詞排序方法。
方法
⒈模型結構
首先人工構建特征,選取可能的實體指稱。然后使用非監(jiān)督的詞向量,來選擇候選的謂詞。當得到實體-謂詞對之后,采用deep-CNNs模型來重排它們。最后將所有的中間結果(打分)加權和,就得到最后的謂詞,以及答案。另外,這里有個小trick,就是當一個問題經過解析,只有實體名,那么這個問題可能是關于這個實體的介紹,所以實體的謂詞就為“introduce”,在知識圖譜中得到這個實體的介紹信息并輸出為答案。
?
⒉實體鏈接
NLPCC的KB中,實體是類似于“Li Na (Diving Athlete)”這樣的,有實體名,也可能有擴展描述信息。實體指稱是問題的一個子串,并且指稱與實體名相同,或者與實體名的別名相同(NLPCC有文件提供了這個別名)。這里建立特征后,用GBDT去選擇問題的所有子串中真正的實體指稱子串。
這里首先使用正向最大匹配法(FMM,forwardmaximum matching)來進行切詞后,再使用逆向最大匹配法(RMM,reverse maximum matching)來進行切詞。RMM的基本原理與FMM基本相同,不同的是分詞的方向與FMM相反。RMM是從待分詞句子的末端開始,也就是從右向左開始匹配掃描,每次取末端m個字作為匹配字段,匹配失敗,則去掉匹配字段前面的一個字,繼續(xù)匹配。
當得到一個分詞結果之后,句子中每一個分詞視為一個候選實體指稱,對每一個指稱利用規(guī)則生成特征,在得到這些特征后,形成數值,并送到GBDT模型進行訓練,從而分類出候選指稱是黃金指稱的概率Smen。
?
⒊候選謂詞識別
經過特殊分詞(找到問句和謂詞中所有具有意義的詞/詞組),利用下式來判斷謂詞是否能夠問句中謂詞模式的語義:
其中wpi表示謂詞中第i個詞,wqi表示問題中第i個詞,lpi表示wpi的長度。即對謂詞中的每個詞,找到問題中語義最相近的詞,并乘上謂詞的某個詞的長度,最后求平均。
對于該公式,又做了改進:
這里是反過來,對問題中每個詞,找到謂詞中語義最相近的詞(aveq表示所有問題中所有詞的平均詞向量,這里代表無意義的停用詞的詞向量),并乘上問題的某個詞的長度,最后求平均。
?
⒋深度CNN結構
深度CNN用來重排序實體-謂詞對與問題的相似程度,從而進行精確篩選。如下圖1所示是deep-CNN的結構。該模型用來計算謂詞和問句(去掉實體指稱)的語義相似度。模型中采用了兩個卷積層,并利用了殘差網絡進行連接。經過最大池化后,問題的向量和謂詞的向量進行按位乘后,再通過一個使用了dropout的全連接層(MLP),來得到最終的相似度。處理問題和謂詞的卷積層的參數是共享的。每一個卷積層,卷積寬度不同(256個寬度為1的核、512個寬度為2的核、256個寬度為3的核),并對不同核得到的結果進行拼接。另外,相鄰的卷積層之間有殘差網絡連接。
最終得到基于deep-CNN的相似度SCNN。將所有的得分相加,即得到一個實體-謂詞對于問題的相似度的最終得分:Sfinal =Smen + Sf + SCNN * 2。最大得分的實體-謂詞對應的賓語就是最終答案。
實驗
實驗用的數據集是NLPCC 2017的比賽用數據集,有知識庫和問題-答案對,用于訓練。知識圖譜中有43M的SPO三元組,有14609+9870個NLPCC 2016的問題-答案對來訓練。在訓練CNN時,由于正負例極度不平衡,所以采用動態(tài)負采樣算法來篩選負例,選擇一個樣本的概率如下式所示:
其中,rankepi表示上一次迭代后(每次訓練都會取出一個樣本,那么排名會發(fā)生變化),一個實體-謂詞對的排名,排名越大,說明這個實體-謂詞對與問題的相似度越低。這就是一個簡單的生成對抗模型(generative adversarialmechanism),因為rank越大,說明這個實體-謂詞對越不靠譜,也就是對于模型的分類效果來說提升很小(太容易區(qū)分了),所以選中作為負樣本的概率越小。這樣就有了一個對抗模型的思想在里面。
如圖3所示,為模型的實體鏈接結果,效果與之前的工作差不多(99.04%)。
圖3 實體鏈接模型性能對比
如圖4所示,是候選實體-謂詞對的識別情況。由圖可見,效果比baseline的系統(tǒng)要好。
圖4 候選實體-謂詞對的識別情況
如圖5所示,是系統(tǒng)的問答效果,可見集合了所有特征的系統(tǒng)效果最好。
圖5 系統(tǒng)的問答效果
如圖6所示,是本文系統(tǒng)與其他基線系統(tǒng)的性能對比。可見本文系統(tǒng)效果最佳。
圖6 各系統(tǒng)在NLPCC KBQA比賽結果對比
總結
本文提出了一種復雜的中文KBQA模型,包含了基于特征的、GBDT分類的實體鏈接,基于詞向量的候選謂詞初篩,以及基于deep-CNN的實體-謂詞重排序,最終得到了可以回答問題的實體-謂詞對。對于CNN訓練中的正負例不平衡問題,也提出了具有對抗生成思想的負采樣算法。最終,文章提出的系統(tǒng)在NLPCC 2017比賽中獲得第一名。文章中的許多方法都是在工程上易于實現的,可以借鑒到實際應用中。未來可以考慮將三元組的賓語的信息一并結合進來,用于實體-謂詞的篩選。
?
論文筆記整理:花云程,東南大學博士,研究方向為知識圖譜問答、自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向单关系事实问题的中文问答模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 常识性概念图谱建设以及在美
- 下一篇: 论文浅尝 | 使用循环神经网络的联合事件