论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型
論文筆記整理:陳名楊,浙江大學(xué)在讀博士生,研究方向為知識圖譜表示學(xué)習(xí)。
圖表示學(xué)習(xí)是一個當(dāng)前關(guān)注度較高的領(lǐng)域,并且有許多真實的應(yīng)用。然而當(dāng)前的很多圖表示學(xué)習(xí)方法都是對一個領(lǐng)域或者某一個圖訓(xùn)練一個模型,也就是說這些訓(xùn)練的模型是不能遷移到領(lǐng)域外新的數(shù)據(jù)。這篇文章受到在NLP領(lǐng)域預(yù)訓(xùn)練工作的啟發(fā),設(shè)計了一種無監(jiān)督的圖對比編碼(Graph Contrastive Coding,GCC)模型,來捕獲不同圖之間的全局拓?fù)涮卣鳌_@里將GCC的預(yù)訓(xùn)練任務(wù)設(shè)計為區(qū)分不同圖內(nèi)不同點的局部子圖結(jié)構(gòu),并且利用對比學(xué)習(xí)(Contrastive Learning)來學(xué)習(xí)到一些固有的、可遷移的結(jié)構(gòu)表示。
這里提出的GGC的整體思想是,在預(yù)訓(xùn)練階段,給一些不同的圖,然后在上面做一些自監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練得到一個表示學(xué)習(xí)的模型,然后把這個模型用在一些更多沒有見過的的圖上對不同的任務(wù)進(jìn)行微調(diào),下面將對具體的方法及模型的設(shè)計進(jìn)行介紹。
這里預(yù)訓(xùn)練的任務(wù)是instance discrimination,也就是將每個節(jié)點看作是一個自己的類,然后區(qū)分不同節(jié)點作為學(xué)習(xí)目標(biāo)。從對比學(xué)習(xí)的視角來看待,給定一個被編碼的query q,以及一個包含K個keys的字典,對比學(xué)習(xí)是要在dictionary里面找一個和query最匹配的key認(rèn)為是和query同類的實例,在這篇文章中使用的InfoNCE作為學(xué)習(xí)目標(biāo),
除了這個整體的學(xué)習(xí)目標(biāo)外還需要考慮下面一些問題。
1. 如何設(shè)計圖中的實例?
既然使用對比學(xué)習(xí)作為整個方法的總體目標(biāo),這里需要設(shè)計對比的實例,在本篇文章中,作者使用圖中節(jié)點的r-ego network作為這個節(jié)點的實例表示,這r-ego network就是以某一個點為中心,其他點和這個點的最短距離小于r的點的集合的sub-graph。
2. 如何設(shè)計實例間的相似和不相似?
在計算機(jī)視覺中,有多種的數(shù)據(jù)增強(qiáng)方式。在本篇文章的場景中,把對于同一個點的兩個采樣結(jié)果不同的r-ego network作為相似的實例,而把不同點的采樣作為不相似實例。
3. 如何設(shè)計圖的編碼方式?
這里使用一種當(dāng)前SOTA的GNN方法Graph Isomorphism Network(GIN)作為對圖的encoder方法。
整體方法的流程圖如下所示:
實驗部分,該模型在不同的圖上進(jìn)行與訓(xùn)練,其中與訓(xùn)練所使用的數(shù)據(jù)集如下,
在下游任務(wù)的實驗中,嘗試了不同對比學(xué)習(xí)策略(E2E,MoCo)以及不同的微調(diào)策略,實驗結(jié)果如下,
?????? 這篇文章提出的基于對比學(xué)習(xí)的圖預(yù)訓(xùn)練模型可以有效的建模和遷移圖中的結(jié)構(gòu)特征從而達(dá)到預(yù)訓(xùn)練的目的,對比其他的從頭開始學(xué)習(xí)的監(jiān)督學(xué)習(xí)模型,該模型也可以獲得相當(dāng)?shù)臏y試表現(xiàn)。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 知识图谱推理中表示学习和规
- 下一篇: 论文浅尝 | S3QLRDF: 用于大规