WWW 2021最佳论文亚军:基于属性补全的异质图神经网络新架构
?作者?|?機器之心編輯部
來源?|?機器之心
4 月 23 日,萬維網頂會 WWW-2021(The Web Conference 2021: International World Wide Web Conference) 公布了本屆會議的最佳論文獎冠亞軍(Winner 和 Runner-Up),來自天津大學金弟副教授團隊的論文《Heterogeneous Graph Neural Network via Attribute Completion》斬獲最佳論文獎(Runner-Up)。
WWW(現改名為 TheWebConf)會議是萬維網領域的頂會,由圖靈獎得主 Tim 創辦,被中國計算機協會將其認證為 CCF-A 類會議,每年舉辦一次。本屆 WWW 共計收到 1736 篇投稿,錄用 357 篇論文,錄用率為 20.6%,其中評出最佳論文獎冠亞軍各一篇。
WWW2021?最佳論文獎(亞軍)由來自天津大學的金弟副教授團隊摘得。該研究原創性地提出了異構信息網絡屬性補全問題及其高效求解方案。該方案正交于已有異構圖神經網絡框架,并在多個真實世界的異質數據集上取得了優秀的結果。
論文鏈接:
https://dl.acm.org/doi/10.1145/3442381.3449914
代碼鏈接:
https://github.com/jindi-tju/HGNN-AC
1. 內容簡介
異質信息網絡(HINs)也稱為異質圖,它是一種由多種類型的節點和邊組成的復雜網絡,包含了全面的信息和豐富的語義。圖神經網絡(GNNs)作為處理圖結構數據的強大工具,在網絡分析任務中表現出了卓越的性能。最近相繼提出了許多基于圖神經網絡的異質圖模型,并取得了巨大的成功。圖神經網絡旨在通過節點屬性間的傳播和聚合操作來完成圖表示學習任務,因而完備的節點屬性是算法運行的必要前提。然而,大多數真實世界的場景通常存在信息不完備的問題,表現在異質信息網絡中即為:常存在某些類型節點的屬性完全缺失的現象,比如在包含三種類型節點的引文網絡 ACM 中,只有 paper 節點含有原始屬性,author 和 subject 節點沒有屬性。不同于同構網絡中某些結點的屬性缺失或節點屬性在某些維度上的缺失,異質網絡中的屬性缺失程度更大、更為復雜。
已有的一些異質網絡表示學習方法主要針對模型的改進來提高算法性能,對于屬性的缺失采用一些簡單的手工插補方法(例如平均插補、one-hot 向量插補)進行補全。這些方法將屬性補全與圖表示學習過程分開,忽略了準確的屬性對于下游任務的重要性,因此很難使用簡單插補后的屬性來保證模型的性能。實際上,準確的輸入是任何模型實現性能提升的基礎,在異質網絡更為復雜的屬性缺失情況下,準確的屬性變得更為重要。因此,本文認為與設計新的模型相比,科學準確地補全缺失的屬性應該成為異質網絡分析任務的另一個重要研究方向,并且屬性補全和模型設計可以相互增強。基于此,本文提出以可學習的方式來補全缺失的屬性,并通過采用屬性補全與圖神經網絡模型相互增強的模式來構建一個針對屬性缺失異質網絡的異質圖神經網絡通用框架(HGNN-AC)。
HGNN-AC 共包含四個關鍵設計:基于拓撲結構的先驗知識預學習、基于注意力機制的屬性補全、弱監督重構損失的設計和端到端模型的構建。本文在三個真實世界的異質網絡上進行了大量的實驗,結果表明所提出的框架優于最新的基準。
2. 方法
本文提出的框架主要由四部分組成(如下圖所示)。首先,采用經典的異質網絡表示學習方法,利用拓撲結構來獲取節點的拓撲表示,以此捕獲節點之間高階的拓撲關系作為屬性補全的先驗知識。其次,基于節點的拓撲表示計算無屬性節點與直接相連的已有屬性節點之間的關系,通過對已有屬性節點的屬性進行加權聚合來為無屬性節點進行屬性補全。然后,通過隨機刪除部分已有屬性節點的屬性,并使用所提出的屬性補全方法為這些節點重構屬性以構建弱監督損失。最后,設計屬性補全與基于圖神經網絡的異質模型相結合,使整個系統實現端到端,完成任務導向的屬性補全。
1)節點拓撲表示的預學習
由于網絡中拓撲結構和屬性攜帶的語義信息往往具有很強的相似性,本文認為網絡拓撲中的高階異質關系有助于屬性補全,因此本文采用經典的異質網絡表示學習方法(例如 metapath2vec)利用拓撲結構捕獲節點之間的關系來學習節點的表示 H,并將其作為指導屬性補全的先驗知識。
2)基于注意力機制的屬性補全
為帶有屬性的節點集合,為屬性缺失節點的集合。本文利用上述獲得的先驗知識 H,使用注意力機制計算缺失屬性的目標節點的一階鄰居節點對其的重要性程度,并根據重要性系數來聚合已有屬性的一階鄰居節點(中的結點)的屬性,為目標節點(中的節點)進行屬性補全。
具體來說,給定節點對(v,u)和其對應的節點表示h_v和h_u?(其中節點 v 為沒有屬性的目標節點,節點 u 屬于節點 v 的一階鄰居中帶有屬性的節點集合), 計算 u 節點對于 v 節點的重要性系數:
進行歸一化:
根據歸一化的系數聚合中的節點的原始屬性為目標節點 v 進行屬性補全:
為了穩定學習過程并減少高方差,本文最終采用多頭注意力機制進行屬性補全:
3)刪除原始屬性以構建弱監督損失
為了確保屬性補全過程是可學習的,同時補全的屬性是準確的,本文將帶有原始屬性的節點隨機劃分為和,將中節點的屬性刪除,并采用上一步中屬性補全機制來重構刪除的屬性:
通過計算原始屬性和重構屬性之間的歐氏距離得到屬性補全的弱監督損失:
4)與異質圖神經網絡模型結合構建端到端系統
通過提出的屬性補全機制,本文對已有的屬性和補全的屬性進行組合,得到完整的屬性矩陣:
將完整的屬性矩陣連同拓撲結構一同輸入圖神經網絡模型中,得到模型的標簽預測損失:
為了實現任務導向的屬性補全,本文將標簽預測損失和屬性補全損失組合,構建端到端的系統去聯合優化二者:
3. 實驗
本文在三個真實的異質網絡數據集上進行了實驗。數據集的統計信息如下:
1) 節點分類結果 - 將本文提出的框架與兩個異質圖神經網絡的 SOTA 模型(MAGNN,GTN)相結合來對 HGNN-AC 框架進行評估:
2) 案例分析 - 采用不同的屬性補全方式進行實驗對比,ACM 數據集中 paper 節點有屬性,author 和 subject 節點沒有原始屬性,下表中從左到右采用的屬性補全方式依次為:paper 和 subject 節點的屬性向量來源于與其直接相連的 paper 節點的屬性向量的平均值;author 節點的屬性向量為 one-hot 向量,subject 節點的屬性向量為與其直接相連的 paper 節點的屬性向量的平均值;author 和 subject 節點的屬性均為 one-hot 向量;author 節點的屬性通過本文提出的方法進行補全,subject 節點的屬性為 one-hot 向量;author 和 subject 節點的屬性均通過本文提出的方法進行補全。
4. 總結
本文發現,面對異質網絡中復雜的屬性缺失情況,與專注于設計新模型的傳統研究方向相比,屬性補全變得尤為重要,并且可以成為一個全新的、更有效的提升性能的方向。本文首次科學地對異質網絡中的缺失屬性進行了補全,并提出了通用的框架來解決異質圖神經網絡模型中面對的屬性缺失問題。
具體地,在該框架中,首先基于面向元路徑的高階拓撲信息來挖掘節點間關系,并將其作為節點之間語義關系的先驗知識。接著為節點屬性的補全提供了一種具有先驗信息指導的、有效的注意力機制,并通過隨機刪除屬性來實現弱監督損失的定義,從而使屬性補全成為在先驗知識指導下合理的可學習過程。最終在同一圖神經網絡框架下定義了屬性補全過程和目標任務,以構建任務導向的端到端框架,實現兩者的相互增強。該框架可與多數異質圖神經網絡模型正交,為這些模型帶來穩定的性能提升。本文也希望這種新觀點能夠為現有的基于圖神經網絡的異質網絡研究提供一個新的、有效的方向。
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的WWW 2021最佳论文亚军:基于属性补全的异质图神经网络新架构的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 祁地旗舰店和祁地官方旗舰店什么区别
- 下一篇: 直播预告 | 长文本知识抽取:基于语义分