NeurIPS 2021 | 简单且通用的多视图对比图聚类方法
隨著信息時代的蓬勃發展,產生了大量多視圖屬性圖圖數據。隨即,也出現許多的多視圖聚類方法,但這些方法只利用數據中的多屬性信息或者多拓撲圖信息,沒有完整地利用屬性圖數據的所有信息。
本期 AI Drive,電子科技大學計算機科學與工程學院碩士生潘爾林,分享其團隊在這個問題上取得的新進展,也是他們發表于 NeurIPS 2021 的最新工作:多視圖對比圖聚類。
在這個工作中,他們提出了一個簡單而通用的、多視圖的屬性圖數據聚類方法:多視圖對比圖聚類。
論文標題:
Multi-view Contrastive Graph Clustering
論文鏈接:
https://arxiv.org/abs/2110.11842
代碼鏈接:
https://github.com/panern/mcgc
本期提綱如下:
任務
首先介紹研究的目標和要解決的任務:處理屬性圖數據、多視圖屬性圖的聚類問題。
圖數據在現實中大量存在,很多場景下的數據結構都可以表示成為一個圖數據(或者網絡)。例如,paper 或作者通過引用關系,可以構建出引用網絡;用戶信息和他們在社交媒體上的關系構成社交網絡;知識圖譜等也是圖數據等。
屬性圖是圖數據的一種(Attributed Graph)。屬性圖中既包含關系圖,同時每個節點擁有自己的屬性特征。以社交網絡作為屬性圖的一個例子。每個節點就是一個用戶,包含用戶的個人檔案,也就是自身的社交信息(包括個人興趣、注冊信息、性別年齡等)。不同用戶之間存在著 “邊”,表示用戶之間的社交關系(如轉發,關注等)。
以具體的數據來看,節點屬性是維度為 N×D 的屬性特征矩陣。其中,N 表示節點數量,D 表示屬性特征的數量。如表中所示,有 4 個用戶,那就是 4 個節點,每個用戶各有 4 種屬性。關系圖一般用鄰接矩陣(adjacency matrix)(A)表示。其中如果,用戶,也就是節點 i 與 j 之間存在關系,例如社交網絡的轉發、關注、分享關系等,矩陣中的對應位置值為 1,否則為 0。
更復雜的情況,社交網絡中,每個人角色為不同,個人信息也不同。對應的屬性圖數據中,同一個節點,可能對應多個屬性向量。例如圖中的節點 13,擁有多個屬性特征。而對于同一批數據點,數據點之間的關系也存在多種。不同的關系意味著會有不同的拓撲結構。如圖,相同的數據點,至少有兩種拓撲結構,對應兩個鄰接矩陣。簡而言之,有多個屬性或多個關系圖的,就是多視圖屬性圖數據。
圖聚類(此處的圖聚類指的是將圖上的節點聚類,并不是對整個圖分類)將圖上的節點分成不同集群,每個集群內的點要盡量相似,不同集群間要盡量不同。對于多視圖屬性圖聚類,也是一種圖聚類,但其考慮的信息更多,要同時基于給出的多種類型的節點特征和多個關系圖的信息,完成圖節點聚類任務。
但要要完成多視圖屬性圖聚類任務,就面臨兩個問題:一是如何聚合多個視圖間的一致性信息?因為雖然是不同視圖,但都是表示同種事物,其在多個視圖中是有共享信息的;二是如何同時處理屬性信息和關系圖?此外還有追求更高的聚類準確度等要求。
已有的相關工作
相關研究主要介紹多視圖聚類和對比學習思想。
多視圖聚類,試圖挖掘不同視圖間的一致性信息。對于單視圖,也可以處理多視圖數據。例如對每個多視圖單獨處理,最后取結果最好的視圖。在評測性能的時候,取指標的平均值或最優值。但單視圖方法沒有使用完整地數據,意味著可能會丟失一些重要信息。
多視圖數據可以更全面地描述數據,而且多視圖的聚類方法的話有很多,不限于提到的這些方法。但大多數方法要么只利用屬性信息,要么只用關系圖,并不能直接應用在屬性圖上。例如,只利用鄰接矩陣或者學習特征表示方法進行圖聚類,不能直接應用在屬性圖上,因為屬性圖同時具備以上兩種信息。
對于屬性圖的聚類問題,也有一些好方法,例如基于 GCN 設計的 (MAGCNCheng et al., 2020)和 O2MA(Fan et al., 2020)。
其中,MAGCN 利用圖神經網絡,重構多視圖的特征和共同關系圖。簡而言之這種方法是利用一張共同的圖,通過 GCN 學習得到不同視圖的嵌入,最后再重構每個視圖的特征和關系圖。但其這意味著只能處理一個關系圖的屬性圖數據。
O2MA 通過一些方法選取多個視圖中最豐富的視圖,再用選取的視圖,重構其他視圖的特征。被選取的視圖,是利用關系圖選取的。但其信息最豐富,不代表這個視圖能包含所有的重要信息,這樣做也可能丟失個別重要信息。其局限性是只能處理有一種屬性、多個關系圖的屬性圖數據,不能處理多種屬性的圖數據。
我們的方法與以上兩張方法有所不同,且比較通用。其既能處理多個屬性的視圖數據,也能處理擁有多個關系的視圖數據。
在研究過程中,也利用了對比學習思想。關于對比學習思想,個人認為一是主要區分是與不是,而不是所有像素級的信息。畢竟,分辨比還原要簡單,只需要更小的計算代價。舉個鈔票的例子,分辨鈔票要比重新畫出它要簡單得多。二是要學習更加重要、有效的信息,不用學習無關緊要的信息。
對比學習試圖最大化所有正樣本之間的相似度,拉近正樣本,推遠負例。正樣本一般是同一實例通過數據增強得到的,不同實例處理得到的為負樣本。例如,原圖和經過數據增強得到另外的圖片,包括改變尺寸、模糊圖片、顏色扭曲等處理,得到其他類似圖片,這就構成一組正例。來自于不同原始的圖片構成的其他圖片就是負例。比如下圖老虎就是負例。
通過對比損失訓練模型,拉近正例之間的距離,將負例推遠。
聚類其實是把相似的實例分在同個集群里,而對比學習是拉近正樣本(高度相似),推遠負例。直觀來看,兩者有相似之處。有些方法如 Mvgrl(Hassani and Khasahmadi, 2020)和 Completer(Lin et al., 2021),就考慮使用對比學習來提高聚類的性能。當然這些方法不是純聚類方法,只是一種特征學習方法。
Mvgrl 將鄰接矩陣轉化得到的擴散矩陣視為正例。在學習得到的不同圖表示間施加對比學習來訓練模型。
Completer 尋找正例的方法不一樣。它將不同視圖之上的同一個樣例當作正樣本。通過拉進不同視圖間同一樣例的表示來訓練得到更好的模型。
但是回到屬性圖聚類上,對于屬性圖中的點,又該怎么取正例呢?
新的方法
接下來介紹新方法,分為是三個模塊:
Graph Filtering(圖例波模塊)
Graph Learning(圖學習模塊)
Graph Contrastive Regularizer(圖對比模塊)
給定一個屬性圖數據。V 表示節點的集合,有 N 個節點。E 表示邊的種類,X 表示屬性特征。
我們的目標函數如下:
我們使用的是濾波后的特征,而不是原始特征。
以下介紹三個模塊作用:
圖濾波模塊就用以處理原始數據;
圖學習模塊從多視圖中學到一致圖;
圖對比損失用于提高圖的質量。
為什么需要圖濾波?
首先因為圖上的信號,在相鄰點之間是平滑的,意味著在相鄰點應該趨于近似值。其次數據經過濾波之后,得到的特征表示有利于聚類或分類。而且圖濾波后得到特征,很大程度保留了圖的結構信息,同時消除了噪音干擾。
一般來說,處理后的數據越平滑,濾波效果越好。輸入數據 X,以下式子可以表示濾波時的平滑度。
其中 L 是拉普拉斯矩陣。得到的值越小,表示平滑度越高。可以看出,當特征值 λ 越小時,平滑度越高。則考慮使用低通濾波器,獲得低通濾波后的平滑特征。平滑的特征可以通過解決這樣一個優化問題得到:
可以求出函數的封閉解。首先保留封閉解泰勒展開式的第一項,并且考慮更高階的情況,最后得到一個 m 階的濾波表達式。
其中的 I 是單位矩陣, X 是原始數據,m 是濾波階數,S 是可以濾波參數,H 是濾波之后的得到的平滑信號。
本文中:m 一般保留 2(多數數據集 M=2 的效果比較好,不同數據集有差異),s 一般小于 1。
通過濾波前后的 tsne 可視化可以看出,經過 DBLP 濾波之后,特征可分性要增強很多。
圖學習模塊主要是從濾波之后的平滑數據中學到一個一致圖,同時綜合多個視圖信息。可以通過自表達性質來得到一致圖。自表達性質指的是,每個數據點都可以由其他數據點通過組合表達出。
例如在單視圖上,目標函數為:
前一項是重構項,S 是得到的組合圖。第二項是正則項,一般有多種形式,比較常見的有 L1、L2 范數等。
對于多視圖,因為每個視圖的作用不同,應該考慮其權重。此處引入權重參數 λ, 用來自適應權重調節不同視圖間的權重,最后要學習的 S 是一致的。最后一項是為了自適應求出每個視圖的權重。
圖聚類是指將圖上的節點分成不同集群。其中要求同個集群內的點盡量相似,不同集群內的點盡量不同。對比學習,就試圖拉近正樣本,推遠負例。為此我們使用一個圖對比正則項來提高圖的聚類親和性,使圖更利于聚類。
對于圖像內每個節點和它的 k 近鄰視為一個正例對,如圖中,灰色節點和他的紅色近鄰視為正例。最小化圖對比正則項試圖拉近節點間的距離。通過減少類內差異性,使紅色節點更趨向于灰色節點。對于整體的數據而言,更利于后面的聚類。
實驗結果
關于實驗介紹相關指標對比和消融實驗。
使用數據集的情況有兩種,一是具有多個圖的屬性圖數據,二是有多個屬性特征的屬性圖數據。但理論上來說,通過圖濾波和圖學習模塊,本方法可以處理多圖和多屬性的屬性圖數據。Baselines,包括單視圖和多視圖的方法都,屬性圖聚類的方法和基于對比學習思想的方法。
得出的結果,相比于單、多視圖的方法,此方法確實有性能的提升。
與另兩個方法比起來,提升得更多。但提升太多不是說明其他方法不好,因為其他兩個方法并不只是單純的聚類方法,而是表示學習學習方法。去除濾波以后,發現其性能下降了。但要注意一點,各數據對于濾波的敏感性是不同的。
使用完整的數據的話,丟失的信息比較少;但如果只使用單視圖或只用信息相對豐富的視圖,就可能丟失重要信息。數據上來看,使用完整視圖得到的效果是最好的。
總結
優勢方面:
1.本文介紹的方法可以快速有效的從原數據獲得一種有利于聚類的特征表示,并且保留數據的結構特征(通過圖濾波實現)。
2.能同時處理帶有多個屬性矩陣或者多個關系圖的屬性圖數據(通過圖濾波和圖學習模塊實現)。
3.對于多圖數據和多屬性數據都取得不錯的聚類性能(通過圖濾波模塊、圖學習模塊、圖對比模塊實現)。
局限性方面:
1. Large memory:可拓展性不好,占用過大的內存。一是學到的一致圖,是 N×N 的矩陣。如果在大型數據中, N 非常大,這時就會占用大量內存。二是濾波,濾波也會進行 N×N 的矩陣計算,也會占用大量內存。
2. Inefficient optimization:因為采用的是逐個更新(梯度更新),S 是 N 乘 N 的。即使 S 是對稱的,也要處理一半的數據量,效率較低。得到的結果可能只是局部最優,比如 S=I,因此初始化矩陣的選取比較重要。
因此,未來改進方向:
1. 首先要減少內存消耗,提高可擴展性。如果 S 還是 N×N 矩陣,對大數據而言不友好。所以考慮采用其他方法。例如選出 m 個代表性的點(錨點),其他的 N 個數據用跟這 m 個點構建的一個關系圖表出。例如將 H 替換成 B(B 可以通過 Kmeans 取質心得到,也可以隨機采樣,或者根據其他方法來選出 m 個點)。但目前用原方法嘗試過,結果發現除 DBLP 外,其他性能都下降了很多。
2. 使用其他形式的圖對比正則項去拉進相似的樣本點。也就是設計一種更加容易優化的正則項。同時在拉近距離時,還可以考慮拉進更高階的近鄰。而且貌似使用更高階信息或更高階相似度,配合簡單的正則化項,在亞馬遜數據集上得到的結果,都比原來使用圖對比正則化項還要優越(提升超過將近兩個百分點)。
概括來說:
1. 我們利用對比學習思想拉進近鄰點,用來提高圖的聚類親和力;
2. 我們提出一種通用于多圖或者多屬性的屬性圖數據的聚類方法,方法包括了圖濾波,圖學習和圖對比三個模塊;
3. 我們的方法在幾個基準數據集上取得了很好的聚類性能。
未來可以進一步嘗試使用易于優化的其他正則化項來拉進近鄰的距離,或者挖掘高階的相似近鄰等。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的NeurIPS 2021 | 简单且通用的多视图对比图聚类方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关闭京东金条怎么关闭
- 下一篇: 用支付宝还信用卡收手续费吗