论文浅尝 | 基于知识库的神经网络问题生成方法
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。
來源:NLPCC2018
鏈接:http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf
?
問題背景與動機
作者認為,目前的問題語料生成主要依賴于人工標注和整理,成本較大。而現(xiàn)有基于知識庫的自動問題生成方法都不能較好的替代上述所需的人工標注效果。在同時考慮生成問題語料的流利度和問題的質(zhì)量兩個方面的問題后,采用了基于LSTM的神經(jīng)網(wǎng)絡(luò)生成方案,并提出一種新的輸入序列預處理方式,從而達到獲取高質(zhì)量中文問題語料的效果。本方法在NLPCC2018的KBQG任務(wù)上獲得了最優(yōu)。
?
貢獻
1.????使用LSTM用于中文問題生成
2.????提出了一種新的輸入序列處理方法
?
模型
本文提出的模型由編碼與解碼兩個部分組成,編碼部分的輸入是三元組(來自知識圖譜)。
三元組由subject,relationship與object構(gòu)成,作為答案的object在問題生成過程中不會被直接表達于問句中,但是它的存在有助于系統(tǒng)理解目前所生成問題的目標。因此,在問題生成過程中object需要被轉(zhuǎn)換為一些特別的形式,以反映出它作為答案時,問句應(yīng)表現(xiàn)出的問題意圖類型。
下表是一些轉(zhuǎn)換的例子,比如時間信息根據(jù)形式的不同可用<date>表示日期,<time>表示具體時間等等。
中文處理中一個非常難的問題是名稱的識別,由于使用pattern無法有效找到中文名稱信息,因此作者采用HanLP工具來完成上述工作,在HanLP中,名稱信息可通過角色標注被識別出來。
這種object完成了上述兩次替換的得到序列被作者稱為token_seq,在完成名稱識別后,則可以對原始三元組的object成分進行“詞->詞性標簽“的替換(除了形容詞和副詞),如下表所示,經(jīng)過這種替換的序列則被稱為token_pos_seq。
需要說明的是,三元組中的subject會在輸出序列中以<ent>的標簽形式出現(xiàn),因此不參與到問題生成模型的輸入中,token_pos_seq/token_seq中的標簽<is>用于分開relationship與object。
編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu)方面,采用了常見的雙向LSTM編碼與單RNN解碼的形式完成。
實驗
文章的實驗數(shù)據(jù)來自 NLPCC2018 的 KBQG 評測子任務(wù),提供規(guī)模為24,479的問答訓練集,測試集規(guī)模為357,評測指標選用了BLEU-4(較高的BLEU值表示模型生成的問題與標準問題的描述形式更為相近,但并不意味著低BLEU問題就是錯誤的,這里僅供參考)。
此外,詳細的神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置原文已由描述,這里不再贅述。
實驗結(jié)果如下表所示。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的神经网络问题生成方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2022 | 面向推
- 下一篇: 领域应用 | 大众点评搜索基于知识图谱的