论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究
動機(jī)
作者思考,如果一個人懂多個語言,那么只要他知道某一語言的某個事實(shí),就能以它作為另一語言問題的答案,同時希望證明計(jì)算機(jī)是否也能做到這一點(diǎn),并完成混合語言的簡單問題知識問答任務(wù)(Code-Mix Simple Questions KBQA)。所謂Code-Mix即是指QA中的問題不是由單一語言構(gòu)成,以中英雙語舉例:
“我怎么知道本文提出的model是否work呢?”
方法
作者將提出的CMQA模型分為兩個步驟:1.候選生成 2.候選重排序
?
候選生成
?
這里的候選指的是KB中與問題相關(guān)的三元組,作者提出的思路是利用檢索模式,縮小候選三元組的搜索空間。通過使用 Solr(一個開源的倒排索引查詢系統(tǒng)),將 Freebase 中所有三元組編入索引,而后將 Question 作為檢索的 Query 得到 top-k 個候選三元組,檢索的排序打分參考 BM25。(注意:在這里檢索僅支持英文,故混合語言問題中其他非英語成分對檢索沒有貢獻(xiàn),那么如果問題的entity是非英語的話,是否可能引入大量與問題無關(guān)的三元組呢)
?
候選重排序
?
本文的主要工作就是設(shè)計(jì)了一個重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN),采用 CNN(卷積網(wǎng)絡(luò))學(xué)習(xí)輸入文本的語義表示,考慮到不同語言的詞序差異性,作者認(rèn)為 CNN 可以學(xué)習(xí)到輸入文本中的詞匯順序特征以及短語順序特征。
對于排序過程,文章將其抽象為一個多分類問題,即每個答案都是一個潛在類別,且對應(yīng)的問題數(shù)量可能很小甚至為0,這里主要通過匹配目標(biāo)實(shí)體和謂詞來做答案篩選。直觀思路是通過構(gòu)建一個問題-答案間的相似度打分作為參照指標(biāo)用于排序,作者在這里引入Siamese networks方法完成上述目的。
整體的模型框架如圖
模型由兩個通道組成,分別用于學(xué)習(xí)正例與負(fù)例,每一通道有三個輸入:
1.問題
2.正(負(fù))例樣本
3.由正(負(fù))例樣本與問題聯(lián)合構(gòu)成的附加輸入
?
網(wǎng)絡(luò)結(jié)構(gòu)由卷積層->池化層->向量關(guān)聯(lián)->全連接層 構(gòu)成,兩個通道中對應(yīng)位置的網(wǎng)絡(luò)共享權(quán)重參數(shù)
?
語言轉(zhuǎn)換
?
處理多語言問題還是繞不開語義鴻溝,為了將兩種語言關(guān)聯(lián)起來,作者采用了雙語詞嵌入+K近鄰組合的策略,構(gòu)建通用跨語言詞嵌入空間,將雙語詞匯投影到該空間中,再引入K近鄰方法構(gòu)建雙語詞匯關(guān)聯(lián)。
?
實(shí)驗(yàn)
數(shù)據(jù):SimpleQuestions (Bordes et al., 2015)dataset
????? 75.9k/10.8k/21.7k? training/validation/test
詞嵌入預(yù)訓(xùn)練:English,Hindi Fasttext(Bojanowski et al., 2016)
English-Hindi bilingual Smith et al.(2017) to obtain
自建數(shù)據(jù)集:Hindi-English混合語言問句 規(guī)模:250,簡單問題,每句對應(yīng)一個Freebase三元組
?
神經(jīng)網(wǎng)絡(luò)的超參數(shù)設(shè)定如圖:
簡單知識問答實(shí)驗(yàn)結(jié)果
候選三元組生成實(shí)驗(yàn)結(jié)果
雙語端到端問答實(shí)驗(yàn)結(jié)果
部分問答效果示例
總結(jié)
作者認(rèn)為本文的貢獻(xiàn)包括:
?成功的回答混合語言問題,在基于“英語語料,有噪聲的海地語監(jiān)督,和不完美的雙語詞嵌入”情況下
?提出TSHCNN模型用于聯(lián)合學(xué)習(xí)候選重排序
構(gòu)建了一組250規(guī)模的海地語-英語混合語言問題數(shù)據(jù)集,并且這個數(shù)據(jù)集的答案來源于SimpleQuestion數(shù)據(jù)集,且可以映射到Freebase知識庫上
本方法是作者所知目前第一個端到端的混合語言知識問答方法
?
論文筆記整理:譚亦鳴,東南大學(xué)博士,研究方向?yàn)橹R庫問答、自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
?
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | ACL 2019 知识图谱
- 下一篇: 论文浅尝 | 通过共享表示和结构化预测进