【论文阅读】Multi-hop Question Answering via Reasoning Chains
Multi-hop Question Answering via Reasoning Chains
論文:2019-Multi-hop Question Answering via Reasoning Chains
基于推理鏈的多跳問題回答
任務
? 本文提出了一種在文本中提取離散推理鏈的方法,模型不依賴于gold annotated chains or “supporting facts,使用基于命名實體識別和共指消解的啟發式算法得到的pseudogold reasoning chains。
推理鏈是一系列的句子,邏輯上把問題與一個事實聯系起來,這個事實與給出一個合理的答案相關(或部分相關)。
方法(模型)
提出一個two-stage model
extractor model:提取推理路徑。extractor模型對句子序列進行評分,并通過beam search生成n-best鏈列表。
answer module:將提取的推理鏈輸入到BERT中提取最終的答案。
Learning to Extract Chains
Heuristic oracle chain construction
-
使用命名實體識別提取句子中的實體,如果兩個句子中有匹配的實體,則在這兩個節點上添加一條邊。對段落中的所有句子進行這一操作。
-
從問題的節點開始,搜索所有可能的推理鏈。
使用兩種方式選擇heuristic oracles:
Shortest Path:選擇最短的推理鏈。
Question Overlap:計算每條鏈的Rouge-F1,選擇得分最高的推理鏈,這樣可以找到更完整的答案鏈。
Chain extraction model
輸入:文檔+問題
處理流程:sentence encoding and chain prediction
Sentence Encoding
- 將輸入問題和段落使用BERT編碼。句子可以從段落中提取出來。
sj=SpanExtractor(pi,sjSTART,sjEND)s_j = Span Extractor(p_i, s^{START}_j , s^{END}_j ) sj?=SpanExtractor(pi?,sjSTART?,sjEND?)
sjs_jsj?表示段落pip_ipi?中第i句話
-
BERT-para
本文設計的paragraph-factored model,比在整個上下文運行BERT更高的效率和可拓展性。
使用bert-base-uncased預訓練模型。
Chain Prediction
? 將所有編碼的句子表示作為一個句子包,并采用基于LSTM的pointer network來提取推理鏈。
在第一步中,使用問題q的max-pooled表示初始化pointer network中的隱藏狀態h0h_0h0?,并提供一個特殊的令牌SOS作為第一個輸入。
P(ct=i∣c1,...,ct?1,s)=softmax(α)[i]P(c_t= i|c_1, . . . , c_{t?1}, s) = softmax(α)[i] P(ct?=i∣c1?,...,ct?1?,s)=softmax(α)[i]
αi=W[ht?1;sct?1;ht?1⊙sct?1]α_i= W[h_{t?1}; s_{c_{t?1}};h_{t?1} \odot s_{c_{t?1}}] αi?=W[ht?1?;sct?1??;ht?1?⊙sct?1??]
c1,...,ct?1c_1, . . . , c_{t?1}c1?,...,ct?1?:推理鏈中句子索引。
W:要學習的權重。
Training the Chain Extractor
step t的損失:
losst=?log(P(c?t)∣c1?,...,ct?1?s)loss_t=-log(P(c?t)|c^?_1,...,c^?_{t?1}s) losst?=?log(P(c?t)∣c1??,...,ct?1??s)
c1?c^?_1c1??:目標句子
數據集
- WikiHop
- HotpotQA
性能水平&結論
Comparison of Chain Extraction Methods
- 使用更多的上下文有助于鏈提取器找到相關的句子。
- one-best推理連通常包含答案。
- Q-Overlap有助于找到更多的支持事實。
- 可以通過跨多個鏈使用并集來提高性能。(BRRT-Para(top5))
Results compared to other systems
HotpotQA:使用RoBERTa 預模型作為權重。
- 性能超過了使用標記支持事實的模型,說明本文提出的heuristicallyextracted chains可以有效的替代標記支持事實進行監督。
Evaluation of chains
-
有序抽取優于無序抽取。
在HotpotQA-Hard上,更需要多跳推理。
- 鏈接提取的性能已接近HotpotQA上的性能極限。
- Table4中人類評估的得分與模型在oracle上的F1的分相近,表明本文提出的模型不再需要人工注釋的支持事實。
總結
以上是生活随笔為你收集整理的【论文阅读】Multi-hop Question Answering via Reasoning Chains的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MQTT断线重连订阅无法接收
- 下一篇: 竖流式沉淀池集水槽设计计算_竖流式沉淀池