学习历史预测未来,国防科大新模型实现未来事实预测SOTA
作者|祝存超、陳牧昊等
?來源|機器之心
時序知識的表征和推理是一個具有挑戰性的問題。在本文中,來自國防科技大學等的研究者借鑒了自然語言生成(NLG)中的復制機制思路,并通過設計一種全新的基于時序知識圖譜嵌入(TKGE)的模型來更有效地建模時序知識圖譜。在多個公開時序知識圖譜(TKG)基準數據集上,新模型 CyGNet 在未來事實(鏈接)預測任務上均實現了 SOTA 結果。
知識圖譜在知識驅動的信息檢索、自然語言理解和推薦系統領域有著廣泛的應用。一個知識圖譜只擁有靜態某一時刻的事實,而目前快速增長的數據往往表現出復雜的時間動態,即時序知識圖譜(TKG)。具有代表性的時序知識圖譜包括全球事件、語言和音調數據庫(Global Database of Events, Language, and Tone, GDELT)和綜合危機預警系統(Integrated Crisis Early Warning System, ICEWS)。下圖 1 展示了 ICEWS 系統的一個外交活動記錄子圖。
然而,現有建模時序知識圖譜的方法忽視了時間事實的復雜演變(即許多事實在歷史上反復出現)這個自然現象。例如:全球經濟危機大約每隔 7 至 10 年就會定期發生一次;外交活動定期發生在兩個建立關系的國家之間;東非動物每年 6 月都會進行大規模的遷徙。更具體地說,在整個 24 年的 ICEWS 數據集中(即 1995 年至 2019 年),超過 80% 的事件在過去已經發生過了。這些現象更進一步強調了利用已知事實預測未來事實的重要性。這也是本文的主要出發點。
所以,為了能將時間事實的復雜演變現象融入并建模時序知識圖譜,來自中國國防科技大學、美國南加州大學、法國計算與先進技術學院等機構的研究者相信更有效地利用歷史上發生過的已知事實能夠提高時間事實推斷的精度。他們決定借鑒在自然語言生成中的復制機制(copy mechanism)思路,探索一種新的框架,通過有效學習時間重復模式以更精準地建模時序知識圖譜。
論文鏈接:
https://arxiv.org/abs/2012.08492
代碼鏈接:
https://github.com/CunchaoZ/CyGNet
首先,研究者通過復制機制來探究時序事實的內在現象,并提出在時序知識圖譜中學習推理未來事實的時候應參考已知事實。
其次,研究者通過時間感知復制生成(copy-generation)機制創建了一個新的時序知識圖譜嵌入模型CyGNet(Temporal Copy-Generation Network)?。該模型能夠結合兩種推理模式以根據歷史詞匯表或整個實體詞匯表來進行推測,從而更符合上述 TKG 事實的演變模式。
最后,研究者在 ICEWS18、ICEWS14、GDELT、WIKI 和 YAGO 等 5 個公開 TKG 基準數據集上進行了廣泛的實驗,結果表明 CyGNet 在未來事實(鏈接)預測任務上優于以往 SOTA TKG 模型。
5 個數據集的統計。
方法
模型 CyGNet 舉例
如下圖 2 所示,研究者以預測 2018 年 NBA 冠軍球隊為例,總體介紹了 CyGNet 模型的預測流程。
可以看到,當預測 2018 年哪支球隊獲得了總冠軍時,我們可以從歷史得知一共有 18 支 NBA 球隊曾經獲得過冠軍。CyGNet 首先獲得每個實體的嵌入向量(見彩色柱),然后使用生成模式(generation mode)得到所有 30 支 NBA 球隊獲得冠軍的概率(見綠色條形,條形越高表示概率越大),同時使用復制模式得到所有曾經得到過冠軍的 18 支球隊的概率。通過合并兩個模塊得到的概率,CyGNet最終預測「金州勇士(Golden State Warriors)」能夠獲得 2018 年 NBA 冠軍。
模型 CyGNet 結構
CyGNet 各部分之間的聯系如下圖 3 所示,主要由復制模式和生成模式兩個模塊組成。前者從一個具有重復事實的特定歷史詞匯表中選擇實體,后者從整個實體詞匯表選擇實體。
在訓練過程中,研究者按照時間順序依次訓練每個時間片的知識圖譜。每訓練一個新的時間片的知識圖譜,他們都會將該時間片之前的所有歷史重復事實加入到歷史詞匯表,如下圖 4 所示(驗證和測試的時候,研究者使用整個訓練集的歷史信息)。
復制模式
首先得到每個時間片的歷史詞匯表,該詞匯表由多熱指示向量表示,其中在歷史出現過的實體記為 1,未出現過的實體記為 0.
然后通過一層 MLP 獲得一個索引向量 v_q:
通過將中的未出現過的實體的值設為無限小的值(如 - 10000),然后通過簡單的加和,將未出現過的實體概率值降到無限小。通過一層 softmax,即可將未出現過的實體概率無限逼近與 0,得到歷史出現過的所有實體的概率值 p(c):
生成模式(generation mode)
生成模式通過一層 MLP,然后再接一層 softmax,即可得到整個詞匯表的概率值:
通過參數 alpha 調整復制機制和生成機制的權重,得到最終預測概率,概率最大的即 CyGNet 預測的實體:
實驗分析
鏈路預測實驗結果
研究者在以下五個公開 TKG 基準數據集上進行了實驗,如下表 2 和 3 所示。CyGNet 模型在預測未來事實的鏈路預測任務上的表現超過所有 baseline 模型,這說明了 CyGNet 可以通過結合復制機制和生成機制有效地建模時序知識圖譜數據。
控制變量實驗結果
CyGNet-Copy-only 是當 CyGNet 只使用復制模式,CyGNet-Generation-only 只使用生成模式,CyGNet-Generation-new 是 CyGNet 模型改變生成模式的詞匯表,即生成模式只從全新的從未發生過的實體中選擇。如下表 4 所示,每個模塊都對模型產生了重要的作用。
參數 \ alpha 的敏感度分析
以 ICEWS18 為例,研究者分析了調整復制模式和生成模式權重的參數 alpha。實驗結果證明 CyGNet 能有效的結合生成模式和復制模式。
總結
時序知識圖譜預測在現實中是一個重要且有挑戰性的問題。傳統的方法大多側重于通過對時序信息進行精細復雜的建模來提高預測的準確性。CyGNet 抓住時序實體經常性的重復出現這一現象,借鑒了自然語言生成領域中的「復制-生成」機制,設計了兩個模塊進行預測。兩個模塊的模型都很簡單,卻打敗了傳統的設計很復雜的模型,這充分說明了利用好時序實體重復出現特性的優勢。然而對于這一特性不明顯的數據,CyGNet 的表現可能未必同樣出色。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的学习历史预测未来,国防科大新模型实现未来事实预测SOTA的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直播 | AAAI 2021:如何缓解G
- 下一篇: 为什么空腹不能吃香蕉?