论文浅尝 | 面向简单知识库问答的模式修正强化策略
鏈接:http://aclweb.org/anthology/C18-1277
知識庫問答研究旨在利用結構化事實回答自然語言問題,在網絡中,簡單問題占據了相當大的比例。本文提出在完成模式抽取和實體鏈接后,構建一個模式修正機制,從而緩解錯誤積累問題。為了學習對“subject-predicate”(問題的實體-謂詞)候選集的排序,本文提出將關系檢測機制用于強化聯合事實選擇。多級別編碼和多維信息將被用于強化整個模型過程。實驗結果表明,本方法展現出非常強大的性能。
?
Background
簡單知識庫問答,指的是問答中僅需用到知識庫中的一個事實即可給出答案的過程。
其流程和可以描述為:從自然語言問句中識別實體,謂詞,并與知識庫中的內容構成完整三元組的過程。
?
簡單知識庫問答目前存在的主要挑戰包括:
1.同一單詞(詞語)在不同句子中的意義不同
2.不同的自然語言表達方式具有相同的含義
3.如何利用大規模知識庫中的大量事實信息
Model
在簡單問答中,首先要做的是實體鏈接,常規的實體鏈接方法包括n-gram匹配,序列標注等等,但是這兩個方法都有可能導致錯誤積累,從而無法找到準確的“實體-謂詞”對。
考慮到這些問題,本文首先使用模式抽取和實體鏈接,將可能的實體描述和問題模式提取出來,而后減少知識庫中的候選實體數量。
在模式抽取過程中,作者發現由于模型性能問題,抽取結果中存在一定比例的較差模式。為了應對這個情況,文章提出添加模式修正機制以提升模式抽取的質量。
?
下一步工作就是找出最可能生成問題答案的“實體-謂詞”對,對于這個問題,前人的工作中主要考慮使用問題模式與候選實體信息來選擇合適的謂詞。本文則引入了關系檢測機制進行改進,其效果體現在限定了知識庫中問題表達對應的謂詞,從而引導候選實體的重排序。
?
當問題所問實體在知識庫中存在大量不同類型的重名實體時,先做關系推理或者實體鏈接都有可能引發無召回問題。對此,本文的策略是采用聯合事實篩選,通過利用實體的名稱信息和類別信息從不同角度描述實體。
?
在確定謂詞方面,作者采用唯一關系名與分散詞信息作為限定條件
本文問答模型的示意圖
同時為了準確保留原始問句的內容,本文將字符級別與詞級別的編碼結果進行合并,用于表達原始問句
?
本文編碼策略的示意圖
????????????????????????????
Experiment
本文實驗使用的數據集為SimpleQuestions benchmark提供的問答數據集,其中的每個問題都可以由freebase中的一個三元組回答。
數據集分為三個部分:訓練集規模為75910,驗證集為10845,測試集為21687
知識庫則是從freebase中抽取的子集FB2M(2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M(4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)
?
實驗評價指標為準確率,僅當問題對應的事實與模型得到的實體和謂詞兩者都匹配時,才算準確匹配。
?
從實驗結果上看,本文方法相對過去的工作,取得了非常明顯的提升。
?
論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識圖譜問答,自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 面向简单知识库问答的模式修正强化策略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 2020 年中国知识图谱行
- 下一篇: BAT Java面试完整汇总:面试准备(