當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究

發(fā)布時間：2024/7/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

動機(jī)

作者思考，如果一個人懂多個語言，那么只要他知道某一語言的某個事實(shí)，就能以它作為另一語言問題的答案，同時希望證明計(jì)算機(jī)是否也能做到這一點(diǎn)，并完成混合語言的簡單問題知識問答任務(wù)（Code-Mix Simple Questions KBQA）。所謂Code-Mix即是指QA中的問題不是由單一語言構(gòu)成，以中英雙語舉例：

“我怎么知道本文提出的model是否work呢？”

方法

作者將提出的CMQA模型分為兩個步驟：1.候選生成 2.候選重排序

候選生成

這里的候選指的是KB中與問題相關(guān)的三元組，作者提出的思路是利用檢索模式，縮小候選三元組的搜索空間。通過使用 Solr（一個開源的倒排索引查詢系統(tǒng)），將 Freebase 中所有三元組編入索引，而后將 Question 作為檢索的 Query 得到 top-k 個候選三元組，檢索的排序打分參考 BM25。（注意：在這里檢索僅支持英文，故混合語言問題中其他非英語成分對檢索沒有貢獻(xiàn)，那么如果問題的entity是非英語的話，是否可能引入大量與問題無關(guān)的三元組呢）

候選重排序

本文的主要工作就是設(shè)計(jì)了一個重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN)，采用 CNN（卷積網(wǎng)絡(luò)）學(xué)習(xí)輸入文本的語義表示，考慮到不同語言的詞序差異性，作者認(rèn)為 CNN 可以學(xué)習(xí)到輸入文本中的詞匯順序特征以及短語順序特征。

對于排序過程，文章將其抽象為一個多分類問題，即每個答案都是一個潛在類別，且對應(yīng)的問題數(shù)量可能很小甚至為0，這里主要通過匹配目標(biāo)實(shí)體和謂詞來做答案篩選。直觀思路是通過構(gòu)建一個問題-答案間的相似度打分作為參照指標(biāo)用于排序，作者在這里引入Siamese networks方法完成上述目的。

整體的模型框架如圖

模型由兩個通道組成，分別用于學(xué)習(xí)正例與負(fù)例，每一通道有三個輸入：

1.問題

2.正（負(fù)）例樣本

3.由正（負(fù)）例樣本與問題聯(lián)合構(gòu)成的附加輸入

網(wǎng)絡(luò)結(jié)構(gòu)由卷積層->池化層->向量關(guān)聯(lián)->全連接層構(gòu)成，兩個通道中對應(yīng)位置的網(wǎng)絡(luò)共享權(quán)重參數(shù)

語言轉(zhuǎn)換

處理多語言問題還是繞不開語義鴻溝，為了將兩種語言關(guān)聯(lián)起來，作者采用了雙語詞嵌入+K近鄰組合的策略，構(gòu)建通用跨語言詞嵌入空間，將雙語詞匯投影到該空間中，再引入K近鄰方法構(gòu)建雙語詞匯關(guān)聯(lián)。

實(shí)驗(yàn)

數(shù)據(jù)：SimpleQuestions (Bordes et al., 2015)dataset

????? 75.9k/10.8k/21.7k? training/validation/test

詞嵌入預(yù)訓(xùn)練：English，Hindi Fasttext(Bojanowski et al., 2016)

English-Hindi bilingual Smith et al.(2017) to obtain

自建數(shù)據(jù)集：Hindi-English混合語言問句規(guī)模：250，簡單問題，每句對應(yīng)一個Freebase三元組

神經(jīng)網(wǎng)絡(luò)的超參數(shù)設(shè)定如圖：

簡單知識問答實(shí)驗(yàn)結(jié)果

候選三元組生成實(shí)驗(yàn)結(jié)果

雙語端到端問答實(shí)驗(yàn)結(jié)果

部分問答效果示例

總結(jié)

作者認(rèn)為本文的貢獻(xiàn)包括：

?成功的回答混合語言問題，在基于“英語語料，有噪聲的海地語監(jiān)督，和不完美的雙語詞嵌入”情況下

?提出TSHCNN模型用于聯(lián)合學(xué)習(xí)候選重排序

構(gòu)建了一組250規(guī)模的海地語-英語混合語言問題數(shù)據(jù)集，并且這個數(shù)據(jù)集的答案來源于SimpleQuestion數(shù)據(jù)集，且可以映射到Freebase知識庫上

本方法是作者所知目前第一個端到端的混合語言知識問答方法

論文筆記整理：譚亦鳴，東南大學(xué)博士，研究方向?yàn)橹R庫問答、自然語言處理。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

轉(zhuǎn)載須知：轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題，請注明原標(biāo)題。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：技术动态 | ACL 2019 知识图谱
下一篇：论文浅尝 | 通过共享表示和结构化预测进