论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统
論文筆記整理:譚亦鳴,東南大學博士。
來源:WSDM 2020
鏈接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_25
1.介紹
知識圖譜問答(KGQA)系統的目標是:基于自然語言問題,從RDF數據集中抽取對應答案。近年來許多KGQA方法被提出,取得了較好的效果,但是為一個全新的RDF數據集(KG)構建對應的QA系統依然是困難且麻煩的。其中的主要挑戰在于可移植性:即是否可能將一個QA算法輕松地用于新的/之前未測試過的數據上。
KGQA 可移植方面的兩個主要挑戰是:
a. 構建新訓練數據的高額成本
b. 現有QA模型依賴于KG-specific工具(例如實體鏈接)
在這篇工作中,作者提出了一個可移植QA系統,QAnswer KG,該方法可以在新數據集上實現QA系統的按需構建,且在領域問答方面不需用戶具備專家知識。在三個不同數據集上的實驗證明,QAnswer KG能夠在微量訓練數據的條件下,實現基于任何RDF數據集上的QA系統。
2.模型/方法
?????? QAnswer主要包含四個步驟:
a. Query Expansion: 對自然語言問題中所有可能的n-gram(從1元文法到長度等于句長的n元文法)做KG資源映射
b. Query Construction: 利用映射得到的KG資源合成所有可能的SPARQL query,作者通過資源在圖譜中的距離抽取三元組pattern,每一個query通過將包含相同元素的pattern組合得到,下圖列列舉了一些利用該方法生成的SPARQL query.
c. Query Ranking: 利用1) 對應KG資源的字符串(來自自然語言問題)長度;2) 資源標簽與對應n-gram的相似性。等兩個特征,作者構建了一個query排序方法,用于篩選步驟b中的生成得到的query。
d. Answer Decision: 最終,對于排序得到的query,評估其答案是否與問題目標(用戶意圖)一致。例如,如果給出的query是圖2中的4,可以看到。該查詢所得的答案是關于 “solarsystem?”,與原始問題“What planets belongs to the solar system”相比,其置信將會很低,并且沒有給出有效答案。而query 1則應該具備更高的置信。
??????
本工作與作者的前一工作相關性非常高,感興趣的同學建議同步閱讀:
https://hal.archives-ouvertes.fr/hal-02121400/file/QAnswer__A_prototype_for_a_Question_Answering_System_over_the_Semantic_Web-6.pdf
接著作者介紹了如何使用QAnswer KG對一個RDF數據集構建QA system,圖4給出了一個整體的過程示意。
初始化:系統為新QA system預留了空間,并且創建了目錄用以加載新數據。
索引:在數據加載后,它將被解析和索引,尤其是query擴展索引以及query構建索引。Query ranking及answer decision部分通過機器學習模型建模。
查詢(Query):通過初始化提供的默認算法,QAnswer KG可以回答用戶基于當前數據集所提出的問題。
3.實驗
數據集:Cocktail:the dataset used as a running example in the previous ps, i.e.,
a dataset containing cocktails with their ingredients and preparation
HR:the dataset contains information about employees of a company. The information includes their skills, the spoken languages, the languages they can program and their images.
EU:dataset containing information on the European Union about their member states, their capitals and ministries
數據集的統計信息以及實驗結果如圖10所示,
作者提供了該方法的tutorial:https://qanswer.univ-stetienne.fr/docs/doc0.
以及demo:https://www.qanswer.eu/qa
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | GNN with Gene
- 下一篇: 一篇文章了解架构设计的本质