A Comprehensive Survey on Graph Neural Networks
摘要
近年來,深度學習已經改變了許多機器學習的任務,從圖像分類和視頻處理到語音識別和自然語言處理等。這些任務的數據通常來說都是歐式數據。然而,越來越多應用的數據是非歐式的并且被呈現為有著數據之間復雜關系和相互依賴關系的圖結構。
圖數據的復雜性給現有的機器學習算法帶來了重大的挑戰。最近,出現了許多關于圖數據的深度學習方法的研究。本文對圖神經網絡GNNs在數據挖掘和機器學習方面的應用做了全面闡述。
我們提出了一種新的分類方法將最前沿的GNNs分為了四類:【分類】recurrent graph neural networks(循環圖神經網絡),convolutional graph neural networks(卷積圖神經網絡),graph autoencoders(圖自編碼),spatial-temporal graph neural networks(圖時空網絡)。
我們將討論圖神經網絡在各個領域的應用,并且總結開源代碼,基準點數據,圖數據網絡模型的發展。最后我們提出了這個快速發展的領域的潛在研究方向。
簡介
最近神經網絡的成功推動了模式識別和數據挖掘的研究,許多機器學習任務,例如目標檢測,機器翻譯,語音識別,曾經都嚴重依賴棘手的特征工程提取數據集的特征,現在已經被端到端的學習模式徹底改變,也就是卷積神經網絡(CNN),長短時記憶網絡(LSTM),和自編碼(AE)。深度學習在許多領域的成功部分歸功于快速發展的計算資源(如GPU)和大量訓練數據,部分歸功于深度學習從歐氏數據(如圖像、文本和視頻)中提取有效的數據表示。以圖像分析為例,圖像為歐式空間的規則表示,CNN能夠利用圖像數據的平移不變性,局部連結性和組合性,也就是CNN能夠為各種圖像分析任務提取整個數據集共享的局部特征。
深度學習在歐式數據上取得了巨大的成功,但是,越來越多的應用需要對非歐式數據進行分析。例如,【應用】在電子商務中,一個基于圖的學習系統能夠利用用戶與商品之間的交互做出非常準確的推薦;在化學中,需要識別被建模為圖結構的分子的生物活性以發現新的藥物;在引文網絡中,論文需要通過被引用的關系相互連接,然后通過挖掘關系被分成不同的組。【難點】圖是不規則的,每個圖的無序節點大小是可變的,且每個結點有不同數量的鄰居結點,因此一些重要的操作如卷積能夠在圖像數據上輕易計算,但是不適用于圖數據,可見圖數據的復雜性給現有的機器學習算法帶來了巨大的挑戰 。此外,現有的機器學習算法假設數據之間是相互獨立的,但是,圖數據中每個結點都通過一些復雜的連接信息與其他鄰居相關,這些連接信息用于捕獲數據之間的相互依賴關系,包括,引用,關系,交互。
近年來,人們對擴展基于圖數據的深度學習越來越感興趣。在深度學習CNN,LSTM,深度AE的驅動下,為了處理復雜的圖數據,新的泛化的和定義的重要的算子在過去的幾年獲得了快速的發展。例如,圖1說明了圖卷積算子是如何受標準2-D卷積算子的啟發的。一個圖像可以被看作是一個特殊的圖,其中每個像素和和相鄰的像素相連接。和2-D卷積類似,圖卷積可以表現為一個結點和其鄰居結點的權重之和。
貢獻:
新的分類法:我們提出了一個新的圖神經網絡的分類方法。圖神經網絡被分為了四類:循環圖神經網絡,卷積圖神經網絡,圖自編碼,圖時空網絡。
綜合匯報:我們提供了針對圖數據的現代深度學習技術的最綜合概述。對于每種圖神經網絡,我們對其具有代表性的模型提供了詳盡的描述,做了必要的對比,并且總結了相應的算法。
豐富的資源:我們收集了圖神經網絡的大量資源,包括前沿模型,基準數據集,開源代碼,部分應用。這份研究可以當作一個手邊的指導,用來理解,使用和開發不同的深度學習方法為各種現實生活應用。
背景:
1 GNN簡史
圖神經網絡的表示法最早在Gori等(2005)[16]中提出,在Scarselli等(2009)[17]中進一步闡述。這些早期的研究通過迭代的方式,利用循環神經結構傳播鄰居信息,直到達到一個穩定的不動點,來學習目標節點的表示。這些過程計算代價大,因此很多研究在克服這些困難[18],[19].本文推廣圖神經網絡術語表示所有的針對圖數據的深度學習方法。
受CNN在計算機視覺領域巨大成功的啟發,很多方法致力于重新定義卷積算子,這些方法都屬于圖卷積網絡(GCN)。Bruna et al.(2013)首次基于譜圖理論[20]設計了一種圖卷積的變體,自此,基于譜圖的卷積網絡[12]、[14]、[21]、[22]、[23]的改進、擴展和逼近越來越多。但是譜圖方法一般同時處理整個圖,而且難以并行處理或縮放,所以近年來基于空間的圖卷積[24], [25], [26], [27]發展越來越快。這些方法通過聚集節點信息直接在圖域進行卷積。結合抽樣策略,計算可以在批節點而不是整個圖[24],[27]上進行,能夠減少計算復雜度。
??近年來,除了圖形卷積網絡外,還出現了許多新的圖形神經網絡。這些方法包括圖注意網絡(GAN)、圖的自動編碼器(GAE)、圖的生成網絡(GGN)和圖時空網絡(GSTN)。
1.2 GNN的相關研究
相關的GNN綜述很少,Bronstein et al.[8]使用幾何深度學習的符號,概述了非歐式域的深度學習方法,包括圖形和流形。因為是先驅性工作,所以漏掉了幾個重要的基于空間的方法,包括[15]、[19]、[24]、[26]、[27]、[28]。此外,本研究未涵蓋一些新開發的架構,而這些架構對于GCN同樣重要。本文對圖注意網絡(GAN)、圖的自動編碼器(GAE)、圖的生成網絡(GGN)和圖時空網絡(GSTN)等學習范式進行了綜合評述。 Battaglia等人[29]將位置圖網絡作為構建塊學習關系數據,使用統一的框架對部分神經網絡做了回顧。但是,這個泛化的網絡高度抽象,對原始論文中的方法闡述不足。Lee等人[30]對GNN的分支GAT部分進行了總結。最近,張[31]等對GNN做了一個最近的研究,但是缺少對GGN和GSTN的研究。綜上,現有GNN方面的綜述都不完整。
2 GNNs vs 網絡嵌入
GNN的研究與圖嵌入或網絡嵌入密切相關,是數據挖掘和機器學習社區日益關注的另一個課題。網絡嵌入致力于在一個低維向量空間進行網絡節點表示,同時保護網絡拓撲結構和節點的信息,便于后續的圖分析任務,包括分類,聚類,推薦等,能夠使用簡單現成的機器學習算法(例如,使用SVM分類)。同時,GNNs是用端到端的方式解決圖相關的任務的深度學習模型。 許多GNNs明確的提取出高層次的表示。 GNNs和網絡嵌入的主要區別是:GNNs是為了各種任務而設計的一組神經網絡模型,而網絡嵌入覆蓋了針對相同問題的各種方法。因此,GNNs可以通過圖自編碼框架解決網絡嵌入問題。另一方面,網絡嵌入包含了其他的非深度學習方法,例如矩陣分解,隨機游走。
許多網絡嵌入算法都是典型的無監督算法,它們可以大致分為三種類型[32],即,矩陣分解[38]、[39]、隨機游走[40]、深度學習。基于深度學習的網絡嵌入屬于GNN,包括圖自編碼算法,基于無監督訓練的圖卷積神經網絡。圖2描述了網絡嵌入和GNN的區別。
總結
以上是生活随笔為你收集整理的A Comprehensive Survey on Graph Neural Networks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RNN循环神经网络(吴恩达《序列模型》笔
- 下一篇: 【论文翻译】学习新闻事件预测的因果关系