Louvain 算法原理 及设计实现
模塊度:
Louvain算法是一種基于圖數據的社區發現算法。原始論文為:《Fast unfolding of communities in large networks》。
算法的優化目標為最大化整個數據的模塊度,模塊度的計算如下:
其中m為圖中邊的總數量,k_i表示所有指向節點i的連邊權重之和,k_j同理。A_{i,j} 表示節點i,j之間的連邊權重。
有一點要搞清楚,模塊度的概念不是Louvain算法發明的,而Louvain算法只是一種優化關系圖模塊度目標的一種實現而已。
Louvain算法的兩步迭代設計:
最開始,每個原始節點都看成一個獨立的社區,社區內的連邊權重為0.
算法掃描數據中的所有節點,針對每個節點遍歷該節點的所有鄰居節點,衡量把該節點加入其鄰居節點所在的社區所帶來的模塊度的收益。并選擇對應最大收益的鄰居節點,加入其所在的社區。這一過程化重復進行指導每一個節點的社區歸屬都不在發生變化。
對步驟1中形成的社區進行折疊,把每個社區折疊成一個單點,分別計算這些新生成的“社區點”之間的連邊權重,以及社區內的所有點之間的連邊權重之和。用于下一輪的步驟1。
該算法的最大優勢就是速度很快,步驟1的每次迭代的時間復雜度為O(N),N為輸入數據中的邊的數量。步驟2 的時間復雜度為O(M + N), M為本輪迭代中點的個數。
算法實現:
數據結構設計:
算法數據結構的設計主要有兩方面的考慮:
1.??如何高效地存儲圖中的節點和節點之間的關系
2. 如何在設計的數據結構上高效地掃描數據、進行算法迭代。
當前一些開源的算法實現主要通過hash表或set的結構來存儲節點和節點之間的關系。
主要有兩個缺點:
1.??維護hash 或 集合結構本身就需要不少內存開銷
2. 遍歷過程中需要不斷地創建、銷毀、清空對應的Hash 或 Set 結構,尤其是在遍歷不同的節點的鄰居節點以及社區這點時。
而且,在遍歷過程中,結構對元素的訪問也并不是嚴格O(1)的。
出于以上考慮,我們設計一種更高效的數據結構來存儲圖中的節點和邊,避開使用復雜的數據結構,且在算法迭代過程中不申請多余的空間和空間的銷毀操作,具體如下:
關于節點字段的說明:
count,???社區內的節點個數
clsid,?????節點歸屬社區的代表節點ID
next,??????步驟1迭代中下一個屬于同一個臨時社區的節點
prev,??????步驟1迭代中上一個屬于同一個臨時社區的節點
first,???????屬于同一個社區的,除代表節點外的第一個節點,該節點有步驟2 社區折疊的時候生成
kin,?????????穩定社區內部節點之間的互相連接權重之和
kout,???????穩定社區外部,指向自己社區的權重之和
clskin,?????臨時社區內部節點之間的互相連接權重之和
clstot,??????穩定社區所有內外部指向自己的連接權重之和
eindex,????節點鄰居鏈表的第一個指針,該鏈表下的所有left,都是本節點自己
關于邊數據結構的字段就顧名思義即可。
基于上述結構設計,在給定了一個M個節點,N調邊的圖所需的空間為:60 * M + 24 * N.
例如:給定1000萬給點,2000萬邊的數據,則需要空間約為:10000000 * 60 + 20000000 * 24 = 1080M.且整個迭代過程中內存環境維持不變。
迭代過程:
1, 假設我們最開始有5個點,互相之間存在一定的關系(至于什么關系,先不管),如下:
2, 假設在進過了步驟1的充分迭代之后發現節點2,應該加入到節點1所在的社區(最開始每個點都是一個社區,而自己就是這個社區的代表),新的社區由節點1代表,如下:
此時節點3,4,5之間以及與節點1,2之間沒有任何歸屬關系。
3, 此時應該執行步驟2,將節點1,2組合成的新社區進行折疊,折疊之后的社區看成一個單點,用節點1來代表,如下:
此時數據中共有4個節點(或者說4個社區),其中一個社區包含了兩個節點,而社區3,4,5都只包含一個節點,即他們自己。
4, 重新執行步驟1,對社區1,3,4,5進行掃描,假設在充分迭代之后節點5,4,3分別先后都加入了節點1所在的社區,如下:
5, 進行步驟2,對新生成的社區進行折疊,新折疊而成的社區看成一個單點,由節點1代表,結構如下:
此時由于整個數據中只剩下1個社區,即由節點1代表的社區。
再進行步驟1時不會有任何一個節點的社區歸屬發生變化,此時也就不需要再執行步驟2,至此, 迭代結束。
代碼實現及測試:
一個基于上述結構設計的代碼實現參見:
https://github.com/liuzhiqiangruc/dml/blob/master/cls/louvain.c
在一個實際的圖(70萬點,200萬邊)上進行測試,迭代到完全收斂所需時間為:1.77秒。
實際中往往不需要迭代到每一個點都不發生變化,或者整個圖中有多少比例的節點不在發生變化就退出。
總結
以上是生活随笔為你收集整理的Louvain 算法原理 及设计实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: kubernetes 集群部署
- 下一篇: 长春理工大学第十四届程序设计竞赛(重现赛