技术动态 | 图对比学习的最新进展
轉(zhuǎn)載公眾號(hào) |?DataFunSummit?
分享嘉賓:朱彥樵 中國(guó)科學(xué)院自動(dòng)化研究所
編輯整理:吳祺堯?加州大學(xué)圣地亞哥分校
出品平臺(tái):DataFunSummit
導(dǎo)讀:本文跟大家分享下圖自監(jiān)督學(xué)習(xí)中最近比較熱門的研究方向:圖對(duì)比學(xué)習(xí),在近期的進(jìn)展以及組內(nèi)在此方向上最近的一些工作。主要內(nèi)容包括:①?圖對(duì)比學(xué)習(xí)的基礎(chǔ)知識(shí)介紹與方法梳理;② GRACE模型;③?基于GRACE的改進(jìn)模型:GCA;④?實(shí)驗(yàn)結(jié)果;⑤?圖對(duì)比學(xué)習(xí)的總結(jié)與展望。
01
圖對(duì)比學(xué)習(xí)的基礎(chǔ)知識(shí)介紹與方法梳理
首先和大家介紹一下圖表示學(xué)習(xí)的基礎(chǔ)知識(shí)與方法。
1.?Representation Learning on Graphs
圖表示學(xué)習(xí)旨在對(duì)圖中節(jié)點(diǎn)得到一個(gè)低維的表達(dá)來(lái)編碼節(jié)點(diǎn)的屬性以及結(jié)構(gòu)特征。如果想要得到一個(gè)圖級(jí)別的特征表達(dá),則我們可以對(duì)節(jié)點(diǎn)embedding進(jìn)行pooling。
大多數(shù)圖神經(jīng)網(wǎng)絡(luò)面臨的問(wèn)題在于它們均使用有監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練。但是監(jiān)督學(xué)習(xí)存在以下兩個(gè)問(wèn)題:
現(xiàn)實(shí)中,我們想要獲得大量高質(zhì)量的標(biāo)簽往往費(fèi)時(shí)費(fèi)力、十分困難;
有監(jiān)督表達(dá)學(xué)習(xí)傾向于使得模型學(xué)習(xí)到與標(biāo)簽相關(guān)的信息,但實(shí)際上我們需要模型學(xué)習(xí)到遷移性較強(qiáng)的、可重用的、有共性的知識(shí)。
為了解決這兩個(gè)問(wèn)題,現(xiàn)在越來(lái)越多人開始關(guān)注自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)本質(zhì)上是使用代理任務(wù)(proxy tasks)來(lái)指導(dǎo)模型學(xué)習(xí)特征表達(dá)。代理任務(wù)通俗的來(lái)說(shuō)就是將給定數(shù)據(jù)可以觀測(cè)到的部分作為輸入,而數(shù)據(jù)的另外一部分作為我們希望去學(xué)習(xí)到的對(duì)象。在圖像領(lǐng)域代理任務(wù)常見的有:旋轉(zhuǎn)角度的預(yù)測(cè)任務(wù),亂序圖像的還原任務(wù)(reorganization of shuffled patches)等。
我們可以進(jìn)一步將代理任務(wù)分為兩類。第一大類的方法是Generative/predictive的任務(wù),其損失是在輸出空間進(jìn)行度量,代表模型為Autoencoder(重建損失)以及對(duì)圖像的重建等。另一大類是最近比較熱門的Contrastive(對(duì)比學(xué)習(xí))的任務(wù),旨在引導(dǎo)模型去學(xué)習(xí)輸入的一對(duì)數(shù)據(jù)的相關(guān)信息(是否來(lái)自于同一個(gè)數(shù)據(jù)源、是否是相似數(shù)據(jù)等)。對(duì)比學(xué)習(xí)相較于第一類任務(wù)的優(yōu)點(diǎn)在于模型不需要學(xué)習(xí)細(xì)粒度級(jí)別的特征(如pixel-level features),而是更多關(guān)注在高層次抽象級(jí)別的特征中,因?yàn)檫@些特征足以區(qū)分不同物體與數(shù)據(jù)。
2.?對(duì)比學(xué)習(xí)的框架
SimCLR是一個(gè)目前使用較為廣泛的對(duì)比學(xué)習(xí)框架。對(duì)比學(xué)習(xí)的框架由三個(gè)部分組成:
數(shù)據(jù)的隨機(jī)擾動(dòng),通常是一個(gè)多階段的擾動(dòng)。例如對(duì)于圖像,我們可以先對(duì)其進(jìn)行旋轉(zhuǎn),再對(duì)其進(jìn)行裁剪、變換色彩空間等。在每次模型迭代過(guò)程中,擾動(dòng)是隨機(jī)的。
Encoder函數(shù)f和representation extractor 函數(shù)g。Encoder對(duì)進(jìn)行過(guò)擾動(dòng)的樣本進(jìn)行編碼得到一個(gè)特征表達(dá),之后使用g來(lái)增強(qiáng)表達(dá)能力(通常使用MLP),進(jìn)而得到一個(gè)更加高層次的特征表達(dá)。
對(duì)比學(xué)習(xí)目標(biāo)函數(shù)L,這個(gè)函數(shù)用于度量所給定樣本對(duì)之間的相似性。我們的目標(biāo)是希望經(jīng)過(guò)擾動(dòng)的兩個(gè)樣本經(jīng)過(guò)模型后得到的表達(dá)盡可能一致。
對(duì)比學(xué)習(xí)目標(biāo)函數(shù)類似metric learning中triplet loss的形式。在metric learning中我們希望一對(duì)正樣本的embedding之間的距離拉近,而一對(duì)負(fù)樣本的embedding之間的距離盡可能遠(yuǎn)。類似地,對(duì)比學(xué)習(xí)中常常采用的損失函數(shù)是InfoNCE loss,其可以看做是一個(gè)n分類問(wèn)題。與triplet loss的目標(biāo)對(duì)應(yīng),我們希望從一個(gè)正樣本對(duì)和n-1個(gè)負(fù)樣本對(duì)中間使得正樣本對(duì)之間的embedding距離拉得更近。
3. 圖對(duì)比學(xué)習(xí)
圖對(duì)比學(xué)習(xí)的誕生時(shí)間實(shí)際上早于CV中的對(duì)比學(xué)習(xí)。之前network embedding的工作本質(zhì)上運(yùn)用到了對(duì)比學(xué)習(xí)的思想。例如node2vec中使用BFS或者DFS的隨機(jī)游走,希望出現(xiàn)在同一walk序列中的節(jié)點(diǎn)具有相似的embedding,而不在同一walk上的節(jié)點(diǎn)embedding距離拉遠(yuǎn)。但是network embedding的方法中的encoder特征提取能力較弱,只是做了embedding lookup的操作,而不像DNN有著強(qiáng)大的特征表達(dá)能力。此外,已經(jīng)有工作證明了network embedding的方法實(shí)際上是對(duì)圖proximity矩陣的重建,這意味著這一方法僅僅利用到了圖的結(jié)構(gòu)信息,而并沒(méi)有利用節(jié)點(diǎn)attribute信息。
目前大家更傾向于探索深度圖對(duì)比學(xué)習(xí)的方法。GNN通過(guò)對(duì)鄰居節(jié)點(diǎn)的信息進(jìn)行聚合來(lái)學(xué)習(xí)節(jié)點(diǎn)的特征表達(dá),所以它可以看作是一個(gè)更加強(qiáng)大的encoder。但是圖對(duì)比學(xué)習(xí)尚處于發(fā)展的早期階段,目前的工作主要在兩方面進(jìn)行探索創(chuàng)新:對(duì)比學(xué)習(xí)的目標(biāo)以及數(shù)據(jù)增強(qiáng)。前者的設(shè)計(jì)關(guān)鍵點(diǎn)是定義將什么樣的embedding在特征空間中的距離拉近或者拉遠(yuǎn),而后者的難點(diǎn)在于設(shè)計(jì)圖數(shù)據(jù)增強(qiáng)的策略(相較于CV的數(shù)據(jù)增強(qiáng)技術(shù),圖數(shù)據(jù)不同domain下蘊(yùn)含的先驗(yàn)信息差異巨大)。
下面介紹幾篇具有代表性的圖對(duì)比學(xué)習(xí)的工作。
Deep Graph Infomax (DGI)?旨在使得模型生成的節(jié)點(diǎn)級(jí)別的表達(dá)以及圖級(jí)別的表達(dá)在embedding空間的距離拉近。DGI使用MLP將節(jié)點(diǎn)特征和圖特征做一個(gè)二分類任務(wù),用來(lái)判斷這兩類特征是否來(lái)自于同一個(gè)圖。它們生成負(fù)樣本的策略是將圖鄰接矩陣進(jìn)行random shuffle的操作。
Multiview Graph Contrastive Learning (MVGCL) 采用diffusion kernel來(lái)生成一張圖的另一個(gè)view。Diffusion kernel可以使每個(gè)節(jié)點(diǎn)感知到更多全局信息,相當(dāng)于對(duì)圖結(jié)構(gòu)進(jìn)行數(shù)據(jù)增強(qiáng)。在此基礎(chǔ)上,MVGCL會(huì)對(duì)兩個(gè)view進(jìn)行采樣得到兩個(gè)子圖。之后使用類似于DGI的方法,對(duì)兩個(gè)子圖兩兩之間做對(duì)比學(xué)習(xí),即選取一個(gè)子圖提取其節(jié)點(diǎn)embedding,對(duì)另一個(gè)子圖生成全局圖的embedding進(jìn)行對(duì)比學(xué)習(xí)。通過(guò)這種方法,節(jié)點(diǎn)的表達(dá)可以吸收到更多圖級(jí)別的信息,同時(shí)圖級(jí)別的任務(wù)可以更好地利用到節(jié)點(diǎn)級(jí)別的表達(dá)。但是MVGCL的缺點(diǎn)是經(jīng)過(guò)diffusion kernel后新生成的view是一個(gè)dense graph,使用深度圖學(xué)習(xí)模型的計(jì)算復(fù)雜度較高。
Graph Contrastive Coding (GCC) 考慮將對(duì)比學(xué)習(xí)方法引入圖的預(yù)訓(xùn)練任務(wù)中,即訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)來(lái)自于不同的domain。GCC采用的正樣本對(duì)是圖中同一個(gè)anchor節(jié)點(diǎn)生成的子圖,而負(fù)樣本對(duì)則是圖中不同anchor節(jié)點(diǎn)生成的一對(duì)子圖。GCC由于考慮到了模型遷移性的問(wèn)題,使用了特征工程的方法手工生成了一些節(jié)點(diǎn)特征。
4. 總結(jié)
針對(duì)之前提到的對(duì)比學(xué)習(xí)兩大方向:Contrastive Objective以及Data Augmentation做一個(gè)小總結(jié)。
對(duì)于Contrastive Objectives的探索,DGI和MVGRL采用的是global-local的思想,即采用圖節(jié)點(diǎn)的特征表示與圖全局表示進(jìn)行對(duì)比學(xué)習(xí)。但是這一做法要求生成圖全局特征時(shí)聚合函數(shù)是個(gè)單射函數(shù),否則模型無(wú)法保證充分利用圖節(jié)點(diǎn)的embedding信息。而GCC以及我們提出的GRACE和同期GraphCL的工作采用了local-local的思路,即直接利用兩個(gè)經(jīng)過(guò)增強(qiáng)的view中節(jié)點(diǎn)的embedding特征,巧妙地繞開了設(shè)計(jì)一個(gè)單射讀出函數(shù)的需求。
針對(duì)圖對(duì)比學(xué)習(xí)中的數(shù)據(jù)增強(qiáng),現(xiàn)有大多數(shù)模型僅僅采用了圖結(jié)構(gòu)信息的增強(qiáng),例如打亂鄰接矩陣、添加/刪除邊、圖采樣、使用diffusion kernel生成新的全局view等。我們的工作還考慮了節(jié)點(diǎn)attribute level的數(shù)據(jù)增強(qiáng),包括隨機(jī)擾動(dòng)節(jié)點(diǎn)部分維度的特征、添加高斯分布的噪聲等。
下面,重點(diǎn)分享下我們的兩個(gè)工作:GRACE和GCA。
02
Deep Graph Contrastive Learning: GRACE
1. Contrastive Objective
GRACE借鑒了SimCLR的思想并將其運(yùn)用在圖對(duì)比學(xué)習(xí)中。但是由于圖學(xué)習(xí)任務(wù)和視覺(jué)任務(wù)有著很大差異,即CV領(lǐng)域每張輸入圖片彼此是相互獨(dú)立的,而圖中節(jié)點(diǎn)和節(jié)點(diǎn)之間會(huì)互相影響。基于這一點(diǎn),GRACE的對(duì)比損失進(jìn)一步分為兩類:第一部分負(fù)樣本對(duì)比損失來(lái)自于生成的view之內(nèi)(intra-view negatives),這代表著同一個(gè)view下anchor節(jié)點(diǎn)和其他節(jié)點(diǎn)可以生成一個(gè)負(fù)樣本對(duì);另一部分對(duì)比損失來(lái)自于跨view之間的節(jié)點(diǎn)對(duì)(inter-view negatives),這代表著兩個(gè)view下anchor節(jié)點(diǎn)和其他節(jié)點(diǎn)看作一個(gè)負(fù)樣本對(duì)。
2.?Data Augmentation
針對(duì)圖數(shù)據(jù)增強(qiáng)這一方面,GRACE采用了兩種策略,分別對(duì)應(yīng)于結(jié)構(gòu)層面以及屬性層面的數(shù)據(jù)擾動(dòng)。首先,我們采取了隨機(jī)刪邊的方法。這里不采用加邊的原因是為了使模型計(jì)算復(fù)雜度盡量小。另外一方面,我們對(duì)圖的節(jié)點(diǎn)特征進(jìn)行了隨機(jī)擾動(dòng)。具體地,我們對(duì)節(jié)點(diǎn)特征的每一個(gè)維度進(jìn)行隨機(jī)的mask。
3.?理論基礎(chǔ)
GRACE提出的Contrastive objective以及data augmentation的策略基于最大化輸入樣本分布與輸出分布的互信息(InfoMax Principle)的理論基礎(chǔ):
Contrastive objective本質(zhì)上是在優(yōu)化互信息的下界。這里U,V分別代表著經(jīng)過(guò)擾動(dòng)后隨機(jī)生成的兩個(gè)view。
若我們將兩個(gè)輸出特征之間相似度度量簡(jiǎn)化為向量的內(nèi)積,GRACE的contrastive objective可以轉(zhuǎn)化為triplet loss的形式。
03
Adaptive Augmentation: GCA
本質(zhì)上來(lái)說(shuō),對(duì)比學(xué)習(xí)希望模型能學(xué)習(xí)到在外界施加擾動(dòng)的情況下不敏感的特征表達(dá)。但是在圖中每個(gè)節(jié)點(diǎn)和每一條邊的重要程度不同,我們?cè)赿ata augmentation時(shí)進(jìn)行去邊的操作時(shí)應(yīng)該盡可能多的去除不重要的邊,進(jìn)而可以保留圖中重要的邊與節(jié)點(diǎn)的結(jié)構(gòu)信息以及屬性信息。
GCA依然遵循GRACE的數(shù)據(jù)增強(qiáng)策略,即采取拓?fù)浣Y(jié)構(gòu)層面的數(shù)據(jù)增強(qiáng)(去邊)以及節(jié)點(diǎn)屬性層面的數(shù)據(jù)增強(qiáng)(mask節(jié)點(diǎn)特征)。我們希望在進(jìn)行數(shù)據(jù)增強(qiáng)的操作時(shí),對(duì)于每個(gè)邊以及每個(gè)節(jié)點(diǎn)進(jìn)行擾動(dòng)的概率有所差別,且事件發(fā)生的概率應(yīng)該偏向于不重要的邊與節(jié)點(diǎn)特征。
1. Topology-level Augmentation
拓?fù)浣Y(jié)構(gòu)層面的數(shù)據(jù)增強(qiáng)主要基于node centrality的指標(biāo),其用來(lái)衡量一個(gè)節(jié)點(diǎn)在圖中的重要性。邊的重要性可以使用兩個(gè)節(jié)點(diǎn)的centrality來(lái)綜合得到。考慮到圖中可能存在長(zhǎng)尾分布(即存在heavily dense connections的節(jié)點(diǎn)),我們對(duì)邊重要性進(jìn)行取log的操作進(jìn)行縮放。此外,我們還對(duì)計(jì)算出的removal probabilities進(jìn)行了標(biāo)準(zhǔn)化操作來(lái)避免出現(xiàn)過(guò)大的概率值。
我們?cè)趯?shí)驗(yàn)中還嘗試了三種Node centrality的度量方式:degree、eigenvector以及PageRank。在Karate club數(shù)據(jù)集中得到的centrality結(jié)果表明這三種度量方式的效果差異可以忽略不計(jì)。
2. Attribute-level Augmentation
GCA中屬性層面的augmentation主要考慮了離散的情況,因?yàn)槟壳皩?shí)驗(yàn)中使用的數(shù)據(jù)集的特征較為稀疏。例如一個(gè)citation network中,節(jié)點(diǎn)代表著paper,那么節(jié)點(diǎn)的屬性便是一個(gè)關(guān)鍵詞,其通常是一個(gè)0/1的稀疏特征。我們可以認(rèn)為比較有影響力的文章中的關(guān)鍵詞也十分重要,所以在計(jì)算節(jié)點(diǎn)特征重要性時(shí)可以使用節(jié)點(diǎn)的centrality進(jìn)行計(jì)算。在稀疏特征條件下,我們計(jì)算每個(gè)特征維度出現(xiàn)的次數(shù),并乘上節(jié)點(diǎn)本身的centrality。此后,對(duì)概率值的后處理操作類似于拓?fù)鋵用娴臄?shù)據(jù)增強(qiáng),即我們也添加了log運(yùn)算以及標(biāo)準(zhǔn)化操作。?
04
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中我們選取了Wiki-CS、Amazon-Computers、Amazon-Photo、Coauthor-CS以及Coauthor-Physics五個(gè)數(shù)據(jù)集。Baseline采用了三類圖學(xué)習(xí)的模型:基于network embedding的模型(DeepWalk和node2vec)、基于無(wú)監(jiān)督學(xué)習(xí)的GNN模型(GAE, VGAE, GraphSAGE, DGI, GMI和MVGRL)以及基于有監(jiān)督學(xué)習(xí)的GNN模型(GCN和GAT)。有監(jiān)督學(xué)習(xí)的模型在訓(xùn)練時(shí)會(huì)直接加入分類器進(jìn)行聯(lián)合訓(xùn)練,而在無(wú)監(jiān)督學(xué)習(xí)的模型中模型首先會(huì)單獨(dú)學(xué)習(xí)embedding的表達(dá),之后在加入采用l2正則化的logistic regression分類器進(jìn)行有監(jiān)督的訓(xùn)練。在實(shí)驗(yàn)中,我們采用的評(píng)價(jià)指標(biāo)是節(jié)點(diǎn)的分類準(zhǔn)確度。GRACE和GCA中的GNN layer采用的是兩層GCN。
實(shí)驗(yàn)結(jié)果表明GRACE和GCA的分類效果明顯優(yōu)于其他模型。在消融實(shí)驗(yàn)中,我們分別對(duì)于拓?fù)浣Y(jié)構(gòu)以及節(jié)點(diǎn)屬性的數(shù)據(jù)增強(qiáng)對(duì)比了uniform augmentation與adaptive augmentation的效果,結(jié)果表明adaptive augmentation對(duì)評(píng)價(jià)指標(biāo)有大約半個(gè)點(diǎn)至一個(gè)點(diǎn)的提升。
我們還對(duì)removal和masking的概率進(jìn)行了敏感性分析,實(shí)驗(yàn)發(fā)現(xiàn)如果dropout的概率過(guò)大會(huì)導(dǎo)致模型無(wú)法學(xué)習(xí)到有用的表達(dá)。但是只要dropout概率設(shè)置適當(dāng),模型在一定的參數(shù)配置范圍內(nèi)效果差異不是很明顯。
05
圖對(duì)比學(xué)習(xí)的看法與總結(jié)
我們提出了基于圖對(duì)比學(xué)習(xí)的模型框架GRACE以及其改進(jìn)版本GCA,其中GCA在圖數(shù)據(jù)增強(qiáng)的策略中采取了adaptive augmentation;
實(shí)驗(yàn)證明了local-local的contrastive objective可以更好地利用圖節(jié)點(diǎn)層面的表達(dá);
實(shí)驗(yàn)證明了針對(duì)圖結(jié)構(gòu)層面以及屬性層面的數(shù)據(jù)增強(qiáng)策略對(duì)圖對(duì)比學(xué)習(xí)都有正向影響;
在數(shù)據(jù)增強(qiáng)的過(guò)程中,edge removal以及feature masking的操作需要考慮到節(jié)點(diǎn)重要性,而我們采用的衡量指標(biāo)是node centrality。保留盡量多的關(guān)鍵信息可以指導(dǎo)模型學(xué)習(xí)圖的深層次特征表達(dá);
GRACE和GCA達(dá)到了SOTA的效果,成功縮小了無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的差距。
圖的自監(jiān)督學(xué)習(xí)是一個(gè)十分有前景的研究方向,它可以使得模型在缺乏標(biāo)注的情況下學(xué)習(xí)到較好的圖embedding。這意味著圖的自監(jiān)督學(xué)習(xí)可以運(yùn)用到更為廣泛的場(chǎng)景中,例如推薦系統(tǒng)等。對(duì)于圖的對(duì)比學(xué)習(xí)來(lái)說(shuō),它是由傳統(tǒng)的network embedding的方法演化而來(lái)的新的圖無(wú)監(jiān)督學(xué)習(xí)范式。但是圖對(duì)比學(xué)習(xí)還處于研究早期階段,針對(duì)對(duì)比學(xué)習(xí)范式背后的機(jī)理的認(rèn)知還停留在實(shí)驗(yàn)驗(yàn)證階段,缺乏嚴(yán)謹(jǐn)理論的推導(dǎo)和證明。例如,我們應(yīng)該如何更好地利用圖拓?fù)淇臻g信息以及圖屬性空間信息;如何在圖中進(jìn)行正樣本對(duì)以及負(fù)樣本對(duì)的采樣;從理論上分析什么樣的contrastive objectives效果更好(InfoNCE、Jensen-Shannon divergence等)。
06
Useful?Resources
圖自監(jiān)督學(xué)習(xí)必讀論文、survey和演講:
https://github.com/SXKDZ/awesome-self-supervised-learning-for-graphs;
基于PyTorch的圖對(duì)比學(xué)習(xí)庫(kù):
https://github.com/GraphCL/PyGCL;
參考資料:
07
問(wèn)答環(huán)節(jié)
Q:目前圖自監(jiān)督學(xué)習(xí)模型對(duì)比如傳統(tǒng)DeepWalk這類network embedding的方式在效果上有很明顯的提升,你認(rèn)為這是因?yàn)镚NN encoder更為強(qiáng)大,還是目前自監(jiān)督學(xué)習(xí)的技術(shù)相較于之前的傳統(tǒng)自監(jiān)督學(xué)習(xí)的技術(shù)有一個(gè)很大的提升?
A:傳統(tǒng)的DeepWalk這類方法無(wú)法對(duì)attribute信息進(jìn)行建模,想要利用到屬性信息只能將節(jié)點(diǎn)特征直接拼接至結(jié)構(gòu)特征中。但是我們發(fā)現(xiàn)這一簡(jiǎn)單的做法其實(shí)在某些數(shù)據(jù)上對(duì)最基本的DeepWalk模型也有很大的提升。這一結(jié)果表明利用attribute信息對(duì)模型效果的提升很大一方面取決于數(shù)據(jù)集中attribute特征是否重要。GNN的encoder擅長(zhǎng)得到圖結(jié)構(gòu)特征和屬性特征的更強(qiáng)大的表達(dá),但是structural的信息足夠重要的話,傳統(tǒng)圖學(xué)習(xí)的方法的效果也能接近使用GNN encoder做特征提取的效果。對(duì)于另一方面,模型的效果與數(shù)據(jù)集的規(guī)模有關(guān)。例如OGB這類規(guī)模較大的數(shù)據(jù)集,其圖的半徑較大。GCN這類模型受到圖的感受野的限制較大,堆疊幾層GCN只能學(xué)習(xí)到圖的局部特征的表達(dá);而node2vec這類方法通過(guò)隨機(jī)游走可以采樣到更多、更深層次的信息。這時(shí),基于GNN的方法甚至還無(wú)法接近類似于node2vec的傳統(tǒng)圖學(xué)習(xí)方法。
Q:在推薦系統(tǒng)中有什么樣的需求才會(huì)考慮去使用圖對(duì)比學(xué)習(xí)的方法?
A:如果數(shù)據(jù)集中存在長(zhǎng)尾分布,例如缺失user-item的交互、交互集中在熱門items等,我們可以結(jié)合因果推斷的方法使用對(duì)比學(xué)習(xí)的手段來(lái)提升模型效果。此外,針對(duì)冷啟動(dòng)問(wèn)題,是否有必要將圖的數(shù)據(jù)加入值得研究。因?yàn)樵赿ata augmentation中采取的方法是刪邊,但是如果我們刪去的邊本身對(duì)模型的學(xué)習(xí)有著很大的幫助,這一操作反而會(huì)使模型最終效果變得更差。總體來(lái)說(shuō),推薦系統(tǒng)其實(shí)也可以看做一個(gè)類似于自監(jiān)督學(xué)習(xí)的范式,我們使用t時(shí)刻的數(shù)據(jù)來(lái)預(yù)測(cè)t+1時(shí)刻的行為。如果再加入一個(gè)基于自監(jiān)督學(xué)習(xí)的對(duì)比學(xué)習(xí)有可能有些多余,但是這一方法值得去嘗試。
Q:可不可以在如推薦系統(tǒng)中常見的異質(zhì)圖或者時(shí)序圖上做對(duì)比學(xué)習(xí)?
A:我們也嘗試了在圖的multi-view上進(jìn)行對(duì)比學(xué)習(xí),目前正在評(píng)審過(guò)程中。如果對(duì)推薦系統(tǒng)中時(shí)序數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)時(shí),一個(gè)值得注意的點(diǎn)是如果單純地將不同session之間或者不同augmentation之后生成的view之間直接作為負(fù)樣本其實(shí)不是很合理。在推薦系統(tǒng)中我們基于的假設(shè)是相似的用戶具有相似的user-item交互特征,但是我們要是十分武斷地將其他y用戶的session中的交互作為負(fù)樣本便很不合理。所以,推薦系統(tǒng)中負(fù)樣本對(duì)的選取需要考慮到推薦中的知識(shí),例如計(jì)算用戶興趣等。
Q:基于圖的預(yù)訓(xùn)練模型目前都采用自監(jiān)督學(xué)習(xí),你對(duì)此有什么看法?
A:圖的數(shù)據(jù)與CV中的數(shù)據(jù)不同,領(lǐng)域與領(lǐng)域之間圖結(jié)構(gòu)的差異巨大。CV中針對(duì)圖像的先驗(yàn)很容易遷移,但是圖中的結(jié)構(gòu)在不同領(lǐng)域呈現(xiàn)的結(jié)構(gòu)特征千差萬(wàn)別。目前使用預(yù)訓(xùn)練做遷移學(xué)習(xí)的圖模型均是在相似的領(lǐng)域中進(jìn)行,例如醫(yī)藥生物領(lǐng)域。另一方面,對(duì)比學(xué)習(xí)只是圖遷移學(xué)習(xí)的一種方法。有作者提出對(duì)比學(xué)習(xí)不一定是圖預(yù)訓(xùn)練的最佳選擇,效果取決于目標(biāo)數(shù)據(jù)集的特征。總而言之,我認(rèn)為針對(duì)圖做一個(gè)general的模型十分困難。
今天的分享就到這里,謝謝大家。
分享嘉賓:
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的技术动态 | 图对比学习的最新进展的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 系统性能衡量维度、指标
- 下一篇: 论文浅尝 | GraphIE:基于图的信