训练损失越来越大_无需contrastive学习,微软亚研提基于实例分类无监督预训练方法...
機(jī)器之心發(fā)布
機(jī)器之心編輯部
在本文中,微軟亞洲研究院的研究員和實習(xí)生們提出了一個簡單且高效的無監(jiān)督預(yù)訓(xùn)練方法——參數(shù)化實例分類(PIC)。和目前最常用的非參數(shù)化對比學(xué)習(xí)方法不同,PIC 采用了類似于有監(jiān)督圖片分類的框架,將每個實例或圖片看作一個獨立的類別進(jìn)行實例分類從而進(jìn)行無監(jiān)督學(xué)習(xí)。與 SimCLR 或 MoCo 這類方法相比,PIC 不需要處理潛在的信息泄漏問題,因此結(jié)構(gòu)簡單直觀。研究者在實驗中證明了 PIC 可以在 ImageNet 數(shù)據(jù)集中取得與這些非參數(shù)化對比學(xué)習(xí)方法相匹配的性能。
論文地址:https://arxiv.org/abs/2006.14618
面對著自然世界中越來越多的無標(biāo)注數(shù)據(jù),研究者們都希望找到一種正確的方式,從中學(xué)習(xí)對于視覺任務(wù)有幫助的特征,從而使得各類視覺任務(wù)能有進(jìn)一步的突破,也使各類算法和模型能在實際生產(chǎn)環(huán)境中有更加充分的應(yīng)用。最近的研究已經(jīng)證明,在一些下游任務(wù)上,無監(jiān)督的視覺特征學(xué)習(xí)可以取得與有監(jiān)督學(xué)習(xí)同等甚至更高的遷移學(xué)習(xí)性能。
在本文中,微軟亞洲研究院的研究員和實習(xí)生們提出了一個簡單且高效的無監(jiān)督預(yù)訓(xùn)練方法——參數(shù)化實例分類(Parametric Instance Classification,簡稱 PIC)。和目前最常用的非參數(shù)化對比學(xué)習(xí)方法不同,PIC 采用了類似于有監(jiān)督圖片分類的框架,將每個實例或圖片看作一個獨立的類別進(jìn)行實例分類,從而進(jìn)行無監(jiān)督學(xué)習(xí)。
方法介紹
如圖 1 所示,PIC 的框架非常簡單,通過將每一個實例看作一個獨立的類別即可驅(qū)動網(wǎng)絡(luò)訓(xùn)練,完成特征表示的學(xué)習(xí)。與大多數(shù)常見的有監(jiān)督分類框架相似,PIC 也包含如下五個主要的組成部分:
Data Scheduler:用來從數(shù)據(jù)集中采樣需要傳入網(wǎng)絡(luò)中的圖片;
Data augmentation module:用來對采樣出來的圖片進(jìn)行隨機(jī)數(shù)據(jù)增強(qiáng),使網(wǎng)絡(luò)學(xué)到更具區(qū)分度的特征;
Backbone network:用來對每個增強(qiáng)后的圖像進(jìn)行特征提取,同時這一部分網(wǎng)絡(luò)也會在下游任務(wù)中使用;
Small projection head:用來將高維的特征投影到低維空間,并且在投影后的特征上施加實例分類的損失函數(shù);
Instance classification loss:整個網(wǎng)絡(luò)中唯一的損失函數(shù),用于驅(qū)動整個網(wǎng)絡(luò)訓(xùn)練。
作者發(fā)現(xiàn),完全采用有監(jiān)督分類的設(shè)計模塊會導(dǎo)致訓(xùn)練效果不太理想。因此,他們對各個模塊進(jìn)行適當(dāng)?shù)恼{(diào)整,使其適應(yīng)實例分類問題,從而使得 PIC 學(xué)到的特征質(zhì)量大幅度提高。
具體而言,作者借鑒了最近一些無監(jiān)督預(yù)訓(xùn)練的工作,比如 SimCLR 與 MoCo,采用了合適的數(shù)據(jù)增強(qiáng)方法和強(qiáng)度,使用兩層 MLP 作為 projection head,以及使用 cosine soft-max loss 作為損失函數(shù)等。
除此之外,在 PIC 框架中仍然有許多挑戰(zhàn),比如對每個實例類別的優(yōu)化頻率過低或者面對大數(shù)據(jù)集時負(fù)樣本過多等。這些挑戰(zhàn)也給 PIC 在走向?qū)嵱玫倪^程中帶來了一些問題,如訓(xùn)練時間過長、顯存消耗過大等。因此,為了在提升特征質(zhì)量的同時增強(qiáng)實用性,作者提出了兩項新技術(shù)。
滑動窗數(shù)據(jù)調(diào)度方法(Sliding window data scheduler):具體做法如圖 2 所示,將完整訓(xùn)練過程中使用到的數(shù)據(jù)看作是周期重復(fù)出現(xiàn)的連續(xù)數(shù)據(jù),然后在連續(xù)數(shù)據(jù)上有重疊地進(jìn)行采樣,保證兩個訓(xùn)練周期中會有相同的樣本出現(xiàn)。這一調(diào)度方法可以幫助解決對于某個實例類別采樣間隔過大的問題,使訓(xùn)練穩(wěn)定的同時更加有效。
負(fù)實例類別采樣和分類權(quán)重校正(Negative instance class sampling and classification weight correction):負(fù)實例類別采樣即在計算損失函數(shù)時,只將最近采樣到的 K 個樣本作為負(fù)樣本進(jìn)行計算,而分類權(quán)重校正即為了解決在 SGD 優(yōu)化過程中因為動量(momentum)和權(quán)重衰減(weight decay)的存在依然需要對未被采樣樣本進(jìn)行梯度計算的問題。由此可以使得訓(xùn)練時間和顯存消耗不會隨著訓(xùn)練數(shù)據(jù)的增長而線性增長,而是與訓(xùn)練數(shù)據(jù)大小無關(guān),同時可以保持 PIC 模型的性能表現(xiàn)。
實驗結(jié)果
消融實驗
采用不同的通用模塊設(shè)定:表 1 展示了更合適的數(shù)據(jù)增強(qiáng)、兩層 MLP 的 project head 和 cosine soft-max 損失函數(shù)均可大幅度提高框架的有效性,尤其是 cosine soft-max 損失函數(shù)帶來了接近 20% 的 top-1 acc 的提升。
負(fù)實例類別采樣和分類權(quán)重校正:從表 2 中可以看到,當(dāng)沒有分類權(quán)重校正時,隨著負(fù)樣本的減少,準(zhǔn)確度會出現(xiàn)明顯的下降;而當(dāng)采用分類權(quán)重校正后,即使大幅度減少負(fù)樣本數(shù),其準(zhǔn)確度的下降幅度依然很小。
滑動窗數(shù)據(jù)調(diào)度方法:表 3 展示了當(dāng)選取滑動窗數(shù)據(jù)調(diào)度方法中不同的超參數(shù)時模型的性能表現(xiàn)。表 4 則展示了對于不同長度的訓(xùn)練輪數(shù),滑動窗數(shù)據(jù)調(diào)度方法均能帶來一定的性能提升,短輪數(shù)的實驗性能提升更為明顯。
與其他框架的性能比較
系統(tǒng)級性能比較:如表 5 所示,PIC 在短輪數(shù)的實驗上表現(xiàn)非常出色,相比于之前的最優(yōu)方法能獲得 1.5%~3.2% 不等的性能提升。表 6 則展示了與更多前沿方法的比較。綜合來看,PIC 能取得與 MoCo v2 相當(dāng)?shù)男阅鼙憩F(xiàn),同時遠(yuǎn)高于其他的無監(jiān)督預(yù)訓(xùn)練方法。
下游視覺任務(wù)的性能比較:如表 7 和表 8 所示,PIC 在半監(jiān)督學(xué)習(xí)、iNaturalist18 細(xì)粒度分類、Pascal VOC 檢測任務(wù)和 Cityscapes 語義分割任務(wù)上都展示出了一致優(yōu)異的表現(xiàn),性能均與之前最好的方法相當(dāng)或優(yōu)于之前的方法。
分析
作者表示,PIC 框架和有監(jiān)督分類框架的相似性促使他們?nèi)フ覍み@兩者之間的關(guān)聯(lián),并希望通過這些關(guān)聯(lián)來更好地理解 PIC 框架。他們首先對這兩項任務(wù)所使用的卷積神經(jīng)網(wǎng)絡(luò)輸出的特征對不同區(qū)域的顯著性進(jìn)行可視化,如圖 3(a) 所示,可以看出 PIC 關(guān)注的顯著區(qū)域和有監(jiān)督分類所關(guān)注的顯著區(qū)域非常相似,由此進(jìn)一步統(tǒng)計兩者所關(guān)注的顯著區(qū)域的重合度,如圖 3(b) 所示,可以發(fā)現(xiàn)絕大部分圖片的顯著區(qū)域重合度大于 0.6,平均值達(dá)到了 0.762,這展現(xiàn)出了兩個方法在顯著區(qū)域上具有統(tǒng)計意義上的相似性。圖 3(c) 則揭示了顯著區(qū)域重合度與 PIC 模型準(zhǔn)確度之間的關(guān)聯(lián),從圖中可以明確地看出這兩者之間的正相關(guān)性。顯著區(qū)域重合度越高,PIC 的性能表現(xiàn)也就越好。
此外,作者還特意尋找了一些 PIC 和有監(jiān)督分類方法輸出的顯著區(qū)域存在較明顯差異的圖片,如圖 3(a) 右側(cè)所示。可以發(fā)現(xiàn),這些顯著區(qū)域的差異主要是由圖片中包含多個物體所造成的。在這種情況下,有監(jiān)督分類方法所輸出的顯著區(qū)域主要集中在特定的單個物體上,通常這一物體與標(biāo)注的類別相符,而 PIC 則傾向于將注意力分散在所有具備顯著性的物體上,這種不受標(biāo)注信息干擾的顯著區(qū)域或許是 PIC 在下游視覺任務(wù)上有更好表現(xiàn)的原因之一。
總結(jié)
本文針對無監(jiān)督特征學(xué)習(xí)提出了參數(shù)化實例分類(Parametric Instance Classification,PIC)這樣一個簡單而又高效的框架。相比于之前方法需要考慮信息泄漏的問題,PIC 并沒有任何內(nèi)在的限制。通過結(jié)合一些現(xiàn)有框架中的組成部分,和文中提出的滑動窗數(shù)據(jù)調(diào)度方法、以及負(fù)實例類別采樣與分類權(quán)重校正這兩項技術(shù),PIC 可以達(dá)到非常高的性能表現(xiàn),并且可以應(yīng)用在各種訓(xùn)練場景中。對于無監(jiān)督學(xué)習(xí)與預(yù)訓(xùn)練這一領(lǐng)域而言,PIC 可以作為一個簡單、實用、高效且易于復(fù)現(xiàn)的基準(zhǔn)方法,使得領(lǐng)域內(nèi)未來的研究得以受益。
總結(jié)
以上是生活随笔為你收集整理的训练损失越来越大_无需contrastive学习,微软亚研提基于实例分类无监督预训练方法...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在浏览器中内嵌word_关于项目浏览器内
- 下一篇: python 廖雪峰_廖雪峰的Pytho