NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法
?PaperWeekly 原創(chuàng) ·?作者?|?李婧蕾
學(xué)校?|?北京郵電大學(xué)碩士生
研究方向?|?自然語言處理
Abstract
無監(jiān)督聚類的目的是根據(jù)在表示空間中的距離發(fā)現(xiàn)數(shù)據(jù)的語義類別。然而,在學(xué)習(xí)過程的開始階段,不同類別在表征空間中經(jīng)常存在重疊部分,這給基于距離的聚類實(shí)現(xiàn)不同類別之間的劃分帶來了巨大的挑戰(zhàn)。為此,本文提出了(SCCL)——一個(gè)利用對比學(xué)習(xí)促進(jìn)更好空間劃分的新框架。
論文標(biāo)題:
Supporting Clustering with Contrastive Learning
論文鏈接:
https://arxiv.org/abs/2103.12953
代碼鏈接:
https://github.com/amazon-research/sccl
本文對 SCCL 在短文本聚類方面的性能進(jìn)行了評估,結(jié)果表明,SCCL 顯著提高了大多數(shù)基準(zhǔn)數(shù)據(jù)集的前沿結(jié)果,在準(zhǔn)確率方面提高了 3%-11%,在標(biāo)準(zhǔn)化互信息方面提高了 4%-15%。此外,當(dāng)使用 ground truth 聚類標(biāo)簽進(jìn)行評估時(shí),本文的定量分析還證明了 SCCL 在利用自底向上的實(shí)例鑒別和自頂向下的聚類優(yōu)勢來實(shí)現(xiàn)更好的簇內(nèi)和簇間距離方面的有效性。
近年來,許多研究致力于將聚類與深度表示學(xué)習(xí)結(jié)合起來。盡管有很好的改進(jìn),但聚類性能仍然不足,特別是在存在大量聚類的復(fù)雜數(shù)據(jù)的情況下。如 Figure1 所示,一個(gè)可能的原因是,即使使用深度神經(jīng)網(wǎng)絡(luò),在聚類開始之前,不同類別的數(shù)據(jù)仍然有顯著的重疊。因此,通過優(yōu)化各種基于距離或相似度的聚類目標(biāo)學(xué)習(xí)到的聚類純度較低。
另一方面,實(shí)例對比學(xué)習(xí)(Instance-CL)最近在自我監(jiān)督學(xué)習(xí)方面取得了顯著的成功。Instance-CL 通常對通過數(shù)據(jù)擴(kuò)充獲得的輔助集進(jìn)行優(yōu)化。然后,顧名思義,采用對比損失將從原始數(shù)據(jù)集中的同一實(shí)例中增強(qiáng)的樣本聚在一起,同時(shí)將來自不同實(shí)例的樣本分開。本質(zhì)上,Instance-CL 將不同的實(shí)例分散開來,同時(shí)隱式地將相似的實(shí)例在某種程度上聚集在一起(參見 Figure1)。通過將重疊的類別分散開來,可以利用這個(gè)有利的屬性來支持聚類。然后進(jìn)行聚類,從而更好地分離不同的簇,同時(shí)通過顯式地將簇中的樣本聚集在一起來收緊每個(gè)簇。
為此,本文提出了基于對比學(xué)習(xí)的支持聚類(SCCL),通過聯(lián)合優(yōu)化自頂向下的聚類損失和自底向上的實(shí)例對比損失。本文評估了 SCCL 在短文本聚類方面的表現(xiàn),由于社交媒體如 Twitter 和 Instagram 的流行,短文本聚類變得越來越重要。它有利于許多現(xiàn)實(shí)世界的應(yīng)用,包括主題發(fā)現(xiàn),推薦和可視化。然而,由噪聲和稀疏性引起的微弱信號給短文本聚類帶來了很大的挑戰(zhàn)。盡管利用淺層神經(jīng)網(wǎng)絡(luò)來豐富表征已經(jīng)取得了一些改進(jìn),仍有很大的改進(jìn)空間。
本文用 SCCL 模型解決了這個(gè)挑戰(zhàn)。本文的主要貢獻(xiàn)如下:
本文提出了一種新穎的端到端無監(jiān)督聚類框架,大大提高了各種短文本聚類數(shù)據(jù)集的最新結(jié)果。此外,本文的模型比現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的短文本聚類方法要簡單得多,因?yàn)槟切┓椒ㄍǔP枰嚯A段的獨(dú)立訓(xùn)練。
本文提供了深入的分析,并演示了 SCCL 如何有效地結(jié)合自上而下的聚類和自下而上的實(shí)例對比學(xué)習(xí),以實(shí)現(xiàn)更好的類間距離和類內(nèi)距離。
本文探討了用于 SCCL 的各種文本增強(qiáng)技術(shù),結(jié)果表明,與圖像域不同,在文本域使用復(fù)合增強(qiáng)并不總是有益的。
Model?
本文的目標(biāo)是開發(fā)一個(gè)聯(lián)合模型,利用 Instance-CL 的有益屬性來改進(jìn)無監(jiān)督簇,如 Figure2 所示,本文的模型由三個(gè)組件組成。神經(jīng)網(wǎng)絡(luò) ψ(·) 首先將輸入數(shù)據(jù)映射到表示空間,只會是兩個(gè)不同的頭 g(·) 和 f(·),分別應(yīng)用對比損失和聚類損失。
本文的數(shù)據(jù)包括原始數(shù)據(jù)和增強(qiáng)數(shù)據(jù)。具體來說,對于一個(gè)隨機(jī)抽樣的小批量 B = {xi}Mi=1,本文對 B 中的每個(gè)數(shù)據(jù)實(shí)例隨機(jī)生成一對擴(kuò)增,得到一個(gè)規(guī)模為 2M 的擴(kuò)增集 Ba。
Instance-wise Contrastive Learning?
對于每個(gè) B, Instance-CL 損失是定義在 B 的數(shù)據(jù)增強(qiáng)對上。
設(shè) i1∈{1,…,2M} 表示擴(kuò)增集 Ba 中任意實(shí)例的索引,i2∈{1,. . ., 2M} 為 Ba 中另一個(gè)實(shí)例的索引,和原集合 B 中同一實(shí)例索引一致。將 xi1,xi2∈Ba 作為一個(gè)正樣本對,而將 Ba 中的其他 2M-2 例子作為這個(gè)正對的負(fù)樣本。通過最小化 l1 來將正樣本對和其他負(fù)樣本對分離開
本文中 τ = 0,使用一對標(biāo)準(zhǔn)化輸出之間的點(diǎn)積作為相似度函數(shù)
將所有小批量 Ba 的 loss 求和作為 Instance-CL loss?
Clustering?
本文同時(shí)通過無監(jiān)督聚類將語義范疇結(jié)構(gòu)編碼到表示中。與 Instance-CL 不同,聚類側(cè)重于 high-level 語義概念,并試圖將來自相同語義類別的實(shí)例聚集在一起。假設(shè)數(shù)據(jù)由 K 個(gè)語義類別組成,每個(gè)類別在表示空間中以其質(zhì)心為特征,
表示 B 中 xi 的表示。繼 Maaten 和 Hinton(2008)之后,本文使用 Student 's t- 分布來計(jì)算分配 xj 到第 k 個(gè)簇的概率。
這里 α 表示 Student 's t- 分布的自由度。在沒有明確提及的情況下,本文按照 Maaten 和 Hinton(2008)的方法,設(shè)置 α=1。
本文使用一個(gè)線性層,即圖 2 中的聚類頭,來近似每個(gè)聚類的質(zhì)心,并利用 Xie 等人(2016)提出的輔助分布迭代細(xì)化。其中 pjk 表示輔助概率,定義為
這里 fk,可以解釋一個(gè)小批量樣本的軟聚類頻率。該目標(biāo)分布首先使用軟分配概率 qjk 的平方進(jìn)行銳化,然后用相關(guān)的聚類頻率對其進(jìn)行歸一化。通過這樣做,可以鼓勵從高置信簇分配中學(xué)習(xí),同時(shí)對抗不平衡簇造成的偏見。
之后通過優(yōu)化目標(biāo)之間的 KL 離散度,將聚類分配概率推向目標(biāo)分布,
聚類的 loss 最終可以表示為
這種聚類損失最早是 Xie 等人(2016)提出的,后來Hadifar等人(2019)采用這種聚類損失進(jìn)行短文本聚類。然而,它們都需要對神經(jīng)網(wǎng)絡(luò)進(jìn)行昂貴的分層預(yù)訓(xùn)練,并通過在不同數(shù)據(jù)集之間經(jīng)常變化的精心選擇的間隔來更新目標(biāo)分布(Eq(4))。相反,本文將學(xué)習(xí)過程簡化為端到端訓(xùn)練,每次迭代更新目標(biāo)分布。
Overall objective?
本文中 η =10 還需要注意的是,聚類損失僅在原始數(shù)據(jù)上進(jìn)行了優(yōu)化。還可以利用增強(qiáng)的數(shù)據(jù)來為每個(gè)實(shí)例執(zhí)行聚類分配的本地一致性。
Numerical Results?
distilbert-base-nli-stsb-mean-tokens 作為模型主體
clustering head 使用 768*K 的線性層
constractive head 使用一個(gè) MLP (g),其隱含層大小為 768,輸出向量大小為 128。
指標(biāo):Accuracy (ACC)、Normalized Mutual Information (NMI)
Datasets
STCC(Xu et al., 2017)由三個(gè)獨(dú)立的階段組成。對于每個(gè)數(shù)據(jù)集,它首先使用Word2Vec方法在大型領(lǐng)域內(nèi)語料庫上預(yù)先訓(xùn)練單詞嵌入(Mikolov et al., 2013a)。然后對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,以進(jìn)一步豐富輸入 K-means 進(jìn)行最后階段聚類的表示。
Self-Train(Hadifar 等人,2019)使用 SIF 增強(qiáng)了 Xu 等人(2017)的預(yù)訓(xùn)練詞嵌入(Arora 等人,2017)。繼 Xie et al.(2016)之后,采用逐層預(yù)訓(xùn)練獲得的自動編碼器(Van Der Maaten, 2009),然后采用與本文相同的聚類目標(biāo)對其進(jìn)行進(jìn)一步調(diào)整。Xie 等人(2016)和 Had- ifar 等人(2019)通過仔細(xì)選擇不同數(shù)據(jù)集的間隔更新目標(biāo)分布,而本文每次更新間隔仍然取得了顯著的改進(jìn)。
HAC-SD(Rakib et al., 2020)在稀疏成對相似性矩陣上層次聚類,該相似性矩陣是通過將低于所選閾值的相似性得分歸零得到的。
BoW & TF-IDF 在 size 為 1500 的相關(guān)特征上應(yīng)用 K 均值對 BoW 和 TF-IDF 進(jìn)行評價(jià)。
SCCL 模型在大多數(shù)數(shù)據(jù)集上優(yōu)于所有基線。盡管在生物醫(yī)學(xué)方面落后于 Hadifar 等人(2019年),但考慮到生物醫(yī)學(xué)與 transformer 預(yù)訓(xùn)練的一般領(lǐng)域關(guān)系不大這一事實(shí),SCCL 仍顯示出很大的前景。因?yàn)?#xff0c;Hadifar 等人(2019)是在大型領(lǐng)域內(nèi)生物醫(yī)學(xué)語料庫上學(xué)習(xí)單詞 embeddings,然后使用逐層預(yù)訓(xùn)練的自動編碼器來進(jìn)一步豐富表示。
Rakib 等人(2020年)也顯示了 twitter 和 GoogleNews-T 上更好的準(zhǔn)確性,為此本文提出了兩個(gè)理由。首先,googleews 和 Tweet 都有較少的訓(xùn)練實(shí)例和更多的類。對比學(xué)習(xí)通常需要一個(gè)大的訓(xùn)練數(shù)據(jù)集,因此,很難顯示出它的優(yōu)勢。其次,根據(jù) BoW 和 TF-IDF 評價(jià)的聚類性能,聚類 GoogleNews 和 Tweet 比聚類其他四個(gè)數(shù)據(jù)集更容易。
因此,Rakib 等人(2020)通過對預(yù)處理數(shù)據(jù)的成對相似點(diǎn)仔細(xì)選擇來聚類,可以獲得良好的性能,特別是當(dāng)文本實(shí)例很短時(shí),即 Tweet 和 GoogleNews-T。針對聚集聚類往往由于高計(jì)算復(fù)雜性,本文還強(qiáng)調(diào)了模型對大規(guī)模數(shù)據(jù)的可伸縮性。
Ablation Study?
除了 Instance-CL 和 Clustering 之外,本文還根據(jù) SCCL 的順序版本(SCCL-seq)評估 SCCL,在該版本中,首先使用 Instance-CL 訓(xùn)練模型,然后使用 Clustering 對它進(jìn)行優(yōu)化。
如 Figure3 所示,Instance-CL 還將語義上相似的實(shí)例分組在一起。然而,這種分組效應(yīng)是隱性的,依賴于數(shù)據(jù)。相比之下,SCCL 的性能始終大大優(yōu)于 Instance-CL 和 Clustering。此外,SCCL 還獲得了比其順序版本 SCCL-seq 更好的性能。結(jié)果驗(yàn)證了所提出的聯(lián)合優(yōu)化框架在充分利用 Instance-CL 和 Clustering 兩種優(yōu)化方法的優(yōu)勢、相互補(bǔ)充方面的有效性和重要性。
SCCL leads to better separated and less dispersed clusters?
為了進(jìn)一步研究是什么使得 SCCL 具有更好的性能,本文在整個(gè)學(xué)習(xí)過程中跟蹤了在表示空間中評估的簇內(nèi)距離和簇間距離。對于一個(gè)給定的簇,簇內(nèi)距離是質(zhì)心和所有歸入該簇的樣本之間的平均距離,簇間距離是到其最近的鄰居簇的距離。計(jì)算每一種類型的距離及其平均值,其平均值是通過對所有聚類求平均值而獲得的,其中聚類是根據(jù)真實(shí)標(biāo)簽(實(shí)線)或模型預(yù)測的標(biāo)簽(虛線)來定義的。
當(dāng)對預(yù)測的簇進(jìn)行評估時(shí),Clustering 實(shí)現(xiàn)了更小的簇內(nèi)距離和更大的簇間距離。它展示了聚類的能力,使每個(gè)自學(xué)習(xí)的聚類緊密,并分開不同的聚類。然而,本文觀察到相反的評價(jià)在 ground-truth 聚類,連同較差的準(zhǔn)確性和 NMI 分?jǐn)?shù)。一種可能的解釋是,來自不同 ground-truth 聚類的數(shù)據(jù)在聚類開始之前,在嵌入空間中經(jīng)常有顯著的重疊(見圖 1 左上圖),這使得基于距離的聚類方法很難有效地將它們分離。
雖然隱式分組效應(yīng)允許 Instance-CL 獲得更好的準(zhǔn)確率和 NMI 評分,但結(jié)果簇之間的距離更小,每個(gè)簇更分散,這表明簇間距離更小,簇內(nèi)距離更大。這個(gè)結(jié)果并不奇怪,因?yàn)?instance-cl 只關(guān)注實(shí)例區(qū)分,這通常會導(dǎo)致更分散的嵌入空間。相反,本文利用 Clustering 和 Instance-CL 的優(yōu)點(diǎn)來相互補(bǔ)充。因此,Figure 4 顯示 SCCL 導(dǎo)致更好地分離類,每個(gè)類更不分散。
Data Augmentation?
為了研究數(shù)據(jù)增強(qiáng)的影響,本文探索了三種不同的無監(jiān)督文本增強(qiáng):
(1)WordNet Augmenter 通過將輸入文本中的單詞替換為 WordNet 的同義詞來轉(zhuǎn)換輸入文本。
(2)Contextual Augmenter 利用預(yù)先訓(xùn)練的 Transformer 找到輸入文本的前 n 個(gè)合適的單詞進(jìn)行插入或替換。本文通過詞替換來擴(kuò)充數(shù)據(jù),并選擇 Bert-base 和 Roberta 來生成擴(kuò)充對。
(3)釋義通過反譯產(chǎn)生釋義輸入文本,首先將其翻譯為另一種語言(法語),然后返回到英語。當(dāng)翻譯回英語時(shí),本文使用混合專家模型(Shen et al., 2019)為每個(gè)輸入生成 10 個(gè)候選釋義,以增加多樣性。
對于 WordNet Augmenter 和 Contextual Augmenter,本文嘗試了三種不同的設(shè)置,分別將每個(gè)文本實(shí)例的單詞替換率設(shè)置為 10%、20% 和 30%。對于反向翻譯的段短語,本文計(jì)算了每個(gè)文本實(shí)例與其 10 個(gè)候選釋義之間的 BLEU 分?jǐn)?shù)。然后從每組 10 對候選對象中選出三對 BLEU 得分最高、中等和最低的。
表 3 總結(jié)了每種增強(qiáng)技術(shù)的最佳結(jié)果,其中 context Augmenter 明顯優(yōu)于其他兩種。本文推測,這是由于上下文增強(qiáng)器和 SCCL 都利用預(yù)先訓(xùn)練的 Transformer 作為主體,這允許上下文增強(qiáng)器產(chǎn)生更多的信息增強(qiáng)。
Composition of Data Augmentations?
Figure 5 顯示了使用合成數(shù)據(jù)增強(qiáng)的影響,其中探討了 contexttual Augmenter 和 CharSwap Augmenter。在 GoogleNews-TS 上使用數(shù)據(jù)增強(qiáng)組合確實(shí)提高了 SCCL 的性能,每個(gè)文本實(shí)例的平均單詞數(shù)為 28(見表2)。然而,在 StackOverflow 上觀察到相反的情況,每個(gè)實(shí)例的平均單詞數(shù)為 8。這一結(jié)果不同于在圖像領(lǐng)域觀察到的,其中使用數(shù)據(jù)增強(qiáng)的合成是關(guān)鍵的對比學(xué)習(xí),以獲得良好的性能。
可能的解釋是,為文本數(shù)據(jù)生成高質(zhì)量的擴(kuò)充內(nèi)容更具挑戰(zhàn)性,因?yàn)楦囊粋€(gè)單詞可能會顛倒整個(gè)實(shí)例的語義。當(dāng)?shù)诙啍U(kuò)展應(yīng)用于非常短的文本實(shí)例(例如 StackOverflow)時(shí),這種挑戰(zhàn)就會加劇。本文在圖 5(右)中進(jìn)一步演示了這一點(diǎn),其中 StackOverflow 的擴(kuò)充對在第二輪擴(kuò)充后在表示空間中很大程度上偏離了原始文本。
Conclusion?
本文提出了一個(gè)利用實(shí)例對比學(xué)習(xí)來支持無監(jiān)督集群的新框架。在 8 個(gè)基準(zhǔn)短文本聚類數(shù)據(jù)集上對本文模型進(jìn)行了全面的評估,并表明改模型在性能上大大優(yōu)于或與最先進(jìn)的方法相當(dāng)。此外,還進(jìn)行了消融研究,以更好地驗(yàn)證模型的有效性。
本文證明,通過整合自底向上實(shí)例識別和自頂向下集群的優(yōu)點(diǎn),模型能夠生成具有更好的集群內(nèi)和集群間距離的高質(zhì)量集群。雖然本文只在短文本數(shù)據(jù)上評估模型,但所提出的框架是通用的,并且有望對各種文本聚類問題有效。
在這項(xiàng)工作中,本文探索了不同的數(shù)據(jù)增強(qiáng)策略,并進(jìn)行了廣泛的比較。然而,由于自然語言的離散性,為文本數(shù)據(jù)設(shè)計(jì)有效的轉(zhuǎn)換相對于計(jì)算機(jī)視覺領(lǐng)域的對應(yīng)對象更具挑戰(zhàn)性。一個(gè)有希望的方向是利用數(shù)據(jù)混合策略來獲得更強(qiáng)的數(shù)據(jù)增強(qiáng)或減輕數(shù)據(jù)增強(qiáng)的沉重負(fù)擔(dān)。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何做出一桌高大上的宴客菜?
- 下一篇: 长春塑料打包站有几家,在线等?