论文浅尝 - ICLR2020 | 用于半监督分类的图形推理学习
論文筆記整理:周虹廷,浙江大學研究生。研究方向:知識圖譜,圖表示學習等。
論文鏈接:https://arxiv.org/pdf/2001.06137.pdf
本文是發表在ICLR2020上針對圖數據做節點半監督分類任務的論文。現有的算法解決圖上節點分類問題一般使用傳統的可監督的圖卷積方法,但是當標簽數據不足時,性能可能會大大降低。因此論文提出了一種圖推理學習(GIL)框架,通過學習圖拓撲上的節點標簽推理來提高半監督節點分類的性能。為了更好的刻畫兩個節點之間的連接,論文通過將節點屬性,節點間路徑和局部拓撲結構封裝在一起來正式定義結構關系,從而可以方便地從一個節點推導到另一個節點。為了學習推理過程,論文進一步介紹了從訓練節點到驗證節點的結構關系的元優化,從而使學習到的圖推理能力可以更好地適應測試節點。對四個基準數據集(包括Cora,Citeseer,Pubmed和NELL)的綜合評估表明,與半監督節點分類任務中的最新技術相比,GIL具有優越性。
1、Motivation
論文提出了一種圖推理學習(GIL)框架,以指導模型本身從參考標記節點自適應地推斷那些查詢未標記節點,并在少數情況下提高半監督節點分類的性能。標記的樣品。給定一個輸入圖,GIL嘗試通過建立節點間關系從那些觀察到的節點中推斷出未標記的節點。節點間關系的結構是節點屬性,連接路徑和圖形拓撲結構的集成。這意味著兩個節點之間的相似性是從三個方面決定的:節點屬性的一致性,局部拓撲結構的一致性以及節點間路徑的可達性,如圖1所示。為了高級特征提取,其中的節點以及其中節點的屬性都通過圖卷積聯合編碼。對于節點間路徑可達性,采用隨機游走算法來獲取給定圖中從標記參考節點到查詢未標記節點的特征。基于計算的節點表示和節點間可達性,可以通過計算從參考節點到圖中未標記節點的相似得分/關系來獲得結構關系。受近期元學習策略的啟發,作者認為如果模型學習了從訓練集到驗證集的結構關系推斷,可以有益于學習模型的泛化能力。換句話說,論文提出的GIL試圖學習從訓練樣本到驗證樣本的結構關系中潛在的一些可移植知識,從而使所學習的結構關系可以更好地適應新的測試階段。
2、Model
本文提出的GIL模型包含三個模塊,分別為對于各個節點,通過如GCN等算法編碼節點自身的屬性信息和周圍的鄰居的信息,然后通過算法確定兩個節點的可達性后,通過已標記節點的信息推導出帶確定節點的標簽信息。
為了方便推斷,論文專門在拓撲圖上的兩個節點之間建立了結構關系。將標記的頂點(在訓練集中)視為參考節點,它們的信息可以傳播到那些未標記的頂點中,以提高標記預測的準確性。形式上,給定參考節點vi∈VLabel,論文定義類似于vi的查詢節點vj的得分:
Gvi 和Gvj分別為節點vi和vj的鄰居子圖,由于本文是對節點做一個多分類任務,因此類和節點的關系如下表示:
我們在下面綜述一下整個模型的過程:
(1)節點表示
本文通過對各個節點的子圖執行圖卷積運算來提取頂點vi處的局部表示。類似于柵格化圖像/視頻,在柵格化圖像/視頻上,局部卷積核被定義為具有各種接受場的多個晶格,在文本的工作中,頻譜圖卷積用于編碼輸入圖的局部表示。即對每個節點的子圖,都進行類似于GCN的卷積操作以編碼各個節點周圍的鄰居信息。
(2)路徑可達性
在這里,我們通過在圖上采用隨機游走來計算從頂點i到頂點j的路徑的概率,這是指根據概率矩陣P從vi到vj遍歷圖。從頂點i到頂點j的節點序列是圖上的隨機游動,可以通過考慮圖頂點的集合將其建模為經典的馬爾可夫鏈。為了表示該公式,我們表明P t是在t步中從頂點vi到達頂點vj的概率。通過考慮從頂點vi到頂點vj的t步路徑,首先采取單步到某個頂點h,然后對tj采取t?1步,就很容易體現這一事實。
最后,從vi到vj的節點可達性可以寫成dp維向量:
(3)節點分類
為了定義對于查詢節點來說,周圍各個已標記節點的貢獻,本文同時考慮了節點間路徑可達性,節點對之間的子圖表示。然后通過加權和計算查詢節點的節點表示,最后拼接周圍節點的加權結果表示和查詢節點本身的節點表示,通過一個全連接層,輸出為標簽類別數。
(4)推導學習
模型的損失函數即為如下的多分類損失函數:
????? 由于我們期待在訓練集上訓練良好的模型在驗證集上仍然能有較好的表現,因此本文現在訓練集上進行模型參數的梯度下降:
然后再在驗證集上進一步的進行梯度下降:
在訓練過程中,文章從訓練節點和驗證節點執行批量采樣,而不是一次訓練所有數據。在測試階段,我們可以獲取所有訓練節點像訓練過程一樣進行模型更新。更新后的模型用作最終模型,推斷那些查詢節點的類標簽。
3、Experiment
(1)模型比較
論文在四個數據集,包括Cora、Citeseer、Pubmed、NELL上與DeepWalk、GCN等經典模型進行了比較,結果顯示模型的準確性有了顯著的提升,它證明了文章提出的GIL通過構建圖推理學習過程在各種圖數據集上表現良好,其中有限的標簽信息和圖結構可以很好地用于預測框架中。
(2)模型分析
下表展示了經典的GCN模型以及我們提出的GIL模型只在訓練集上進行訓練和同時使用訓練集和驗證集進行訓練的結果比較,可以看到,在使用驗證集的數據后,模型有一個顯著的提升,這表明可以通過元優化來學習良好的推理能力。值得注意的是,GIL采用了元優化策略來學習推理模型,這是一個從訓練集遷移到驗證集的過程。換句話說,驗證集僅用于教導模型本身如何轉移到看不見的數據。相比之下,常規方法通常采用驗證集來調整特定模型的參數。
4、結論
在這項工作中,本文使用圖推理學習方法解決了半監督節點分類任務,該方法可以在端到端框架中更好地預測這些未標記節點的類別。本文建立結構關系以獲得任何兩個圖節點之間的連接,其中節點屬性,節點間路徑和圖結構信息可以封裝在一起。為了更好地捕獲可轉移的知識,本文的方法進一步學習了將挖掘的知識從訓練樣本轉移到驗證集,最終提高了測試集中未標記節點的標簽的預測準確性。廣泛的實驗結果證明了論文提出的GIL在解決半監督學習問題方面的有效性,即使是在幾次嘗試中也是如此。將來,我們將擴展圖推理方法以處理更多與圖相關的任務,例如圖生成和社交網絡分析。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | 用于半监督分类的图形推理学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java并发优化思路
- 下一篇: 开源开放 | 图数据交互可视化分析框架