Fast Fuzzy Clustering Based on Anchor Graph
Fast Fuzzy Clustering Based on Anchor Graph
基于錨圖的快速模糊聚類 FFCAG
模糊聚類十分流行;
FFCAG算法將基于錨的相似度圖構建和隸屬度矩陣學習集成到一個統一的框架中,從而可以進一步利用錨的先驗知識來提高聚類性能。
FFCAG首先使用無參數鄰域分配策略構造基于錨的相似圖。然后,設計了一個二次規劃模型來學習錨的隸屬度矩陣,這與傳統的模糊聚類算法有很大的不同。更重要的是,在目標函數中引入了一個新的平衡正則化項,以產生更精確的聚類結果。
最后,我們采用一種保證收斂的交替優化算法來求解該方法。
聚類方法大致分為兩類:硬聚類、模糊聚類(軟聚類)
對于硬聚類,每個數據點僅屬于一個聚類,概率為100%。而模糊聚類將每個數據點分配給所有聚類,其程度由成員隸屬度指定。
模糊聚類由于其有效性和簡單性越來越受到研究者的關注。然而,有兩個主要問題限制了它在大規模問題中的應用:
-
模糊聚類的一個主要缺點是在處理大規模問題時耗時。為了加快聚類進程,投入了大量精力。
一個自然的選擇是減小數據大小。另一種方法是尋找更好的初始化來減少迭代次數。
Shen等人設計了一種超平面劃分方法,將整個數據集劃分為不相交的子集,并使聚類算法精確地聚焦于一個局部區域,以提高效率和有效性。
-
模糊聚類的另一個缺點是它的敏感性。
大多數模糊聚類算法采用歐氏距離來分配隸屬度,而噪聲對聚類結果有很大影響。
一些研究人員用適當的正則化項擴展了FCM,以減少異常值的影響并提高其性能
然而,大多數模糊聚類方法要么只處理耗時問題,要么處理噪聲敏感問題。如何在效率和聚類精度之間取得良好的平衡仍然是一個具有挑戰性的問題。
受最近基于錨圖技術研究的啟發,針對大規模問題,我們提出了一種新的模糊聚類算法,稱為基于錨圖的快速模糊聚類(FFCAG)。
文章貢獻:
相關工作
模糊聚類……
基于錨圖的模型……
BKHK生成錨點
方法
動機
……
基于錨的相似圖構造
這里和聶飛平的CAN一樣
鄰居分配中獲得的錨圖B是稀疏的,并且只考慮每個數據點的前k個最近鄰居錨
因此,當j>k+1時,bij被設置為0。它可以看作是數據點和錨之間的圖的相似性矩陣。
成員矩陣學習
數據:X∈Rn×dX \in R^{n \times d}X∈Rn×d 將其分為c類
F=fij∈Rn×cF={f_{ij} \in R^{n \times c}}F=fij?∈Rn×c fij表示xi屬于j類的隸屬度
對于大規模數據,直接處理原始數據非常耗時,因此我們轉而對錨進行聚類以加快聚類過程。
U∈Rm×cU \in R^{m \times c}U∈Rm×c 我們將B的元素bij視為數據點和錨的連接權重,將U的元素uij視為第i個錨屬于第j個類的概率。錨的作用可以看作是連接數據點和類的橋梁,然后可以通過屬于該類的所有錨的成員值的加權和來計算每個數據點fij的成員值
fij=bi1u1j+bi2u2j+?+bimumj=∑l=1mbiluljf_{ij} = b_{i1}u_{1j}+b_{i2}u_{2j}+\dots+b_{im}u_{mj} = \sum_{l=1}^m b_{il}u_{lj} fij?=bi1?u1j?+bi2?u2j?+?+bim?umj?=l=1∑m?bil?ulj?
因此,數據點的隸屬矩陣可以表示為F=BU 模糊聚類允許樣本對每個聚類具有一定程度的隸屬度,而不是僅對一個聚類具有隸屬度
為了獲得清晰的聚類分區,每個數據點的隸屬度應該變化很大,導致所有元素的平方和也較大。因此,我們通過解決以下問題來獲得聚類分配:
對于目標函數(12),通過使用基于錨的相似性圖B來引入數據信息,該相似性圖對數據點和錨之間的信息進行編碼
然而,問題(12)有平凡解,即所有錨都被分組到一個集群中。為了解決這個問題,我們引入
問題(13)的最佳解決方案是,所有錨屬于具有相同隸屬度值1/c的每個簇。我們將(13)視為簇分配中的先驗,以避免平凡解。
不正確的初始化可能導致算法收斂到局部最小值或錯過一個小簇。為了解決這個問題,設計了一個額外的平衡約束,以使聚類結果更加平衡,定義為:
下面,我們將給出最小化問題(14)可以獲得最平衡聚類結果的證明
……
根據上述定理,最小化(14)可以獲得最平衡的聚類結果。因此,我們使用(14)作為平衡正則化項來改善聚類性能。
結合12-14,我們具有清晰聚類結構的新模型是解決:
總之,(18)中提出的總體模型包含三個術語。目標函數中的第一項提供了錨的基本聚類。第二項可被視為避免平凡解的聚類分配中的先驗項。目標函數中的最后一項使聚類結果平衡,以防止將太小或太多的樣本分組為一個聚類的歪斜聚類結果。
我們將問題(18)轉化為軌跡最小化問題,并得出如下最優問題:
(18加了個負號 最大邊最小)
問題(19)的目標函數可以重寫為二次規劃模型:
我們通過求解問題(20)獲得錨的隸屬度矩陣,然后獲得原始數據點的隸屬度。
優化
此部分采用ALM解決問題20
ALM算法通常用于求解方程約束優化問題,如下所示:
由于問題(20)很難直接計算,我們我們引入一個松弛變量V,并將問題(20)等價地轉化為:
問題(21)的最優解可通過最小化以下增廣拉格朗日函數獲得
其中μ是懲罰參數,∑是拉格朗日乘子矩陣。當固定另一個變量時,我們針對一個變量優化問題(22),得到以下兩個子問題
固定U更新V:問題(22)退化為
取問題(23)關于V的導數并將其設為零,我們可以得到
通過固定V更新U:問題(22)退化為
設Z=DV,問題(25)進一步等價于
應該注意,問題(26)對于每個i是獨立的;因此,問題(26)可分為m個子問題
簡化后,問題(27)可以改寫為
問題(28)可以用閉式解來解決。問題(28)的拉格朗日函數表示為
式中,η為標度≥ 0是拉格朗日系數向量,兩者都可以通過[41]中提出的迭代算法確定。根據Karush–Kuhn–Tucker(KKT)條件[42],最優解表示為
其中(x)+=max?(x,0)(x)_+=\max(x,0)(x)+?=max(x,0)。基于上述分析,算法1中描述了解決問題(20)的詳細過程。
總結
以上是生活随笔為你收集整理的Fast Fuzzy Clustering Based on Anchor Graph的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iMacros 自动发文章和外链的做法
- 下一篇: 物流信息管理软件测试培训,第四方物流管理