论文浅尝 | CoRR - 面向复杂知识问答的框架语义解析方法
論文筆記整理:譚亦鳴,東南大學(xué)博士。
?
? ? ?
來源:CoRR abs/2003.13956 (2020)
鏈接:https://arxiv.org/pdf/2003.13956.pdf
?
KBQA任務(wù)中的語義解析目標(biāo)是將自然語言問題轉(zhuǎn)化為標(biāo)準(zhǔn)查詢,而后用于構(gòu)建知識(shí)庫查詢。現(xiàn)有的方法主要依賴于句法解析(例如依存句法),但是在長(zhǎng)句的復(fù)雜問題上,這類表達(dá)形式存在準(zhǔn)確性不足的問題。因此,在這篇文章里,作者提出一種新的框架(skeleton,或者說骨架?)語法解析模型SPARQA,用于表達(dá)復(fù)雜問題的高層結(jié)構(gòu)。
?
動(dòng)機(jī)及概述
為了理解和回答復(fù)雜問題,作者定義了兩個(gè)挑戰(zhàn):
? ? ? ? ? ? ?
1. 語義解析,目前的語義解析主要依賴于依存句法,但是與簡(jiǎn)單問題的解析不同,單純依靠依存句法在復(fù)雜問題的解析上會(huì)出現(xiàn)許多錯(cuò)誤。隨著錯(cuò)誤傳遞則會(huì)影響到整個(gè)語義解析以及問答的性能。圖2是作者列舉的一個(gè)例子,表明了長(zhǎng)距離依賴下,依存解析的準(zhǔn)確性將出現(xiàn)明顯偏差:“movie”和“had”原本是一組依存關(guān)系,但由于長(zhǎng)句的影響,這組依存沒有被識(shí)別出來,卻生成了“in”和“had”這樣的錯(cuò)誤依存。
? ? ? ? ? ? ?
2. 一般而言,一個(gè)問題通常被轉(zhuǎn)化為獨(dú)立于知識(shí)庫的圖結(jié)構(gòu) ungrounded query,但是這個(gè)query的結(jié)構(gòu)相比以知識(shí)庫為基礎(chǔ)的formal grounded query可能有所不同,這種情況在復(fù)雜問題(包含更多謂詞)的情況下同樣存在。如圖1所示,問句“what movie that Miley Cyrus acted in had a director named Tom Vaughan?”的ungrounded query包含了兩個(gè)謂詞“acted in”以及“director”(見1c),但是在Freebase中,對(duì)應(yīng)grounded query則包含三個(gè)謂詞(見1d),這是由Freebase的構(gòu)建機(jī)制所決定的。
?
為了處理上述兩個(gè)挑戰(zhàn),作者提出了一種基于框架(骨架)的語義解析方法,如圖3所示,對(duì)于輸入的問題,首先定義其高層框架(骨架)結(jié)構(gòu),用于輔助生成更精確的ungrounded query,以KB為基礎(chǔ)ungrounded query及其結(jié)構(gòu)變體用于生成grounded query,而后利用一個(gè)多策略打分器對(duì)query做排序從而檢索得到問題的答案。
? ? ? ? ? ? ?
方法
Skeletion Parsing
首先需要對(duì)Skeletion語法的部分定義進(jìn)行說明:
Skeleton 句子的框架(骨架)是一棵有向樹,其中節(jié)點(diǎn)表示句子中的text span,邊表示節(jié)點(diǎn)之間的附加關(guān)系
Text span表示句子中的短語級(jí)別語義單元,一般包含四種類型:從句Clause (S), 名詞短語Noun Phrase (NP), 動(dòng)詞短語Verb Phrase (VP), and 介詞短語Prepositional Phrase (PP)。
附加關(guān)系 即text span之間的依存關(guān)系,這里考慮依存語法中常見的七種:adjectival clause (acl), its sub-type relative clause modi?er (acl:relcl), nominal modi?er (nmod), its sub-type possessive alternation (nmod:poss), coordination (conj), open clausal complement (xcomp), and adverbial clause modi?er (advcl).
?
Skeleton解析算法
下圖描述了本文提出的語義解析算法:
即對(duì)于輸入的自然語言問句Q, 通過一個(gè)循環(huán)過程逐步切分Q中的text span,并補(bǔ)充span之間的邊,從而得到Q對(duì)應(yīng)的Skeleton。(示例見圖1b)
? ? ? ? ? ? ?
?
作者使用BERT實(shí)現(xiàn)了圖1中的四個(gè)過程,用于得到grounded query,如圖4所示:
四個(gè)步驟分別為:
Split(本質(zhì)上是單句分類任務(wù)),預(yù)測(cè)句子是否能進(jìn)一步被切分
Textspan(視為QA任務(wù)),預(yù)測(cè)下一個(gè)從Q中被切分的text span,并標(biāo)記于Q中
Headwordidentification(視為QA任務(wù)),將剩余Q視作文本段落,s視作問題,輸出Q中的一個(gè)span
AttachmentRelationClassifiction 輸入s以及剩余的Q,預(yù)測(cè)兩者之間的relation
? ? ? ? ? ? ?
?
Multi-Strategy Scoring
為了全面地對(duì)query進(jìn)行打分,作者提出并融合了兩種打分策略:
1. 句子級(jí)別的打分
對(duì)于給定的測(cè)試問句,首先找到訓(xùn)練集中與之最為相似的問題(在它們的pattern中具有相同數(shù)量的虛擬字符(占位符?)) ,將測(cè)試問題中的實(shí)體對(duì)應(yīng)的替換掉其中的占位符,從而得到一個(gè)grounded query,如果這個(gè)query能夠獲取到非空答案,那么它的得分為1.0,否則為0.0.
2. 詞匯級(jí)別的打分
這個(gè)打分基于詞袋,如圖5所示,首先問題和formal query被表示為詞袋形式,移除了其中的具體實(shí)體以及停用詞,剩下的部分主要描述了其中的謂詞,利用GloVe進(jìn)行embedding 之后,計(jì)算兩者的余弦相似,從而給出詞級(jí)別得分。
? ? ? ? ? ? ?
實(shí)驗(yàn)與結(jié)果
數(shù)據(jù)集:Graph Questions (Su et al. 2016) 包含5166個(gè)問題,其中2258用于訓(xùn)練
ComplexWebQuestion,包含34689個(gè)問題,按照80-10-10的方式切分訓(xùn)練驗(yàn)證和測(cè)試集
?
實(shí)驗(yàn)結(jié)果
? ? ? ? ? ? ?
? ? ? ? ? ? ?
?
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | CoRR - 面向复杂知识问答的框架语义解析方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ECIR2021 | 两种
- 下一篇: 开源开放 | 熵简科技 AI Lab 开