AAAI 2021 | 基于对比学习的聚类工作
?PaperWeekly 原創 ·?作者|李云帆
學校|四川大學博士生
研究方向|聚類,無監督表示學習
?
論文標題:
Contrastive Clustering
論文來源:
AAAI 2021
論文鏈接:
https://arxiv.org/abs/2009.09687
?
簡介
現有的大部分深度聚類(Deep Clustering)算法需要迭代進行表示學習和聚類這兩個過程,利用聚類結果來優化表示,再對更優的表示進行聚類,此類方法主要存在以下兩個缺陷,一是迭代優化的過程中容易出現誤差累計,二是聚類過程通常采用 k-means 等需要全局相似性信息的算法,使得需要數據全部準備好后才能進行聚類,故面臨不能處理在線數據的局限性。
針對上述問題,本文提出了一種基于對比學習的聚類算法,其同時進行表示學習和聚類分析,且能實現流式數據的聚類。
?
方法
本文基于“標簽即表示”的思想 [2],將聚類任務統一到表示學習框架下,對每個樣本學習其聚類軟標簽作為特征表示。具體地,我們在國際上率先揭示數據特征矩陣的行和列事實上分別對應實例和類別的表示(圖1)。
也即,特征矩陣的列是一種特殊的類別表示,其對應批樣本在某一類別上的概率分布。基于該洞見,本文提出同時在特征矩陣的行空間與列空間,即實例級別和類別級別,進行對比學習即可進行聚類。
▲ 圖1 特征矩陣的行、列空間分別對應實例和類別的表示,可在其中分別進行實例和類別級別的表示學習來進行聚類
我們的方法如圖 2 所示,首先利用數據增廣構造用于對比學習的正負樣本對,通過骨干網絡提取特征,并分別投影到行、列空間進行實例和類別級別的對比學習。訓練完成后,通過直接計算各個樣本的軟標簽,取最大概率的類別作為預測結果即可實現聚類。顯然,該方法適用于大規模在線的數據,因為其將聚類過程轉化為表示學習過程。
▲ 圖2 網絡結構
創新
一方面,從聚類的角度,受益于“標簽即表示”及“列空間對應類別表示空間”的洞見,本文提出的方法無需所有數據輸入后才能進行聚類,而是采用在線的方式實時對當前數據進行聚類隸屬預測,適用于大規模在線場景和流式數據處理。
大量實驗表明,提出的方法在 CIFAR10,CIFAR100 等數據集上比當時最優聚類算法提升精度 30% 以上。另一方面,從對比學習角度,該工作是最早的面向任務的對比學習方法之一,而不再是流行的任務無關無監督表示學習范式。
此外,本文提出的算法也可認為是一種新的引入聚類性質從而增強表示學習能力的對比學習方法,為對比學習研究領域引入新的洞見。論文的 idea 簡潔及自洽,相對于最新的 SimCLR 等對比學習算法,本文提出的算法僅需在考慮數據特征行空間對比學習的同時再考慮列空間的對比學習即可。
值得一提的是,當用于表示學習時,類別級別的對比可在比類別個數更高的維度上進行,即通過過聚類(over-clustering)來找到更加細粒度的類別分布,從而進一步提升表示學習的效果。
在本文發表半年后,Yann Lecun 等人在其 Barlow Twins 方法 [3] 中,同樣提出在列空間進行類別級別的對比學習,也充分驗證了我們 idea 的有效性。 需要說明的是,Barlow Twins 一文并未給出直觀解釋,為什么可以在列空間進行對比學習。而本文從過聚類(over-clustering)的角度給出了一種簡潔直觀的理解。
結果
為驗證方法的有效性,我們在 6 個常用圖片數據集上對比了 17 種代表性的聚類算法(圖3)。實驗結果表明,本文提出的方法在 3 個通用聚類指標 NMI(標準化互信息),ACC(準確率),ARI(調蘭德指數)上均取得了最優。
特別地,本方法在 CIFAR-10 數據集上相比當前最優方法取得了 39% 的 NMI 提升,在 CIFAR-100 和 Tiny-ImageNet 數據集上相比當前方法取得了超過 50% 的 ARI 提升,充分驗證了本方法的有效性。
▲ 圖3 實驗結果
參考文獻
[1] Yunfan Li, P. Hu, Z. Liu, D. Peng, J. T. Zhou, Xi Peng*, Contrastive Clustering, AAAI?Conference on Artificial Intelligence (AAAI’21), Feb. 2-9, 2021, Online.
[2] Xi Peng, H. Zhu, J. Feng, C. Shen, H. Zhang, and J. T. Zhou, Deep Clustering with Sample-Assignment Invariance Prior, IEEE Trans Neural Networks and Learning Systems (TNNLS), vol: 31, no. 11, pp:4857-4868. 2020.
[3] Zbontar J, Jing L, Misra I, et al. Barlow twins: Self-supervised learning via redundancy reduction[J]. arXiv preprint arXiv:2103.03230, 2021.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的AAAI 2021 | 基于对比学习的聚类工作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零钱通转出到银行卡要手续费吗
- 下一篇: 605开头的是什么股票