“烘焙”ImageNet:自蒸馏下的知识整合
?作者|葛藝瀟
學校|香港中文大學博士生
研究方向|圖像檢索、圖像生成等
最先進的知識蒸餾算法發現整合多個模型可以生成更準確的訓練監督,但需要以額外的模型參數及明顯增加的計算成本為代價。為此,我們提出了一種新穎的“烘焙”算法,有效整合同批次內不同樣本間的知識以優化軟標簽,僅需一個網絡即可實現知識整合。“烘焙”在任意網絡架構的訓練中即插即用,以最少的時間成本實現有效的大幅性能提升,我們在 ImageNet 及其他多個常見的圖像分類基準下進行了算法驗證。
論文地址:
https://arxiv.org/abs/2104.13298
代碼地址:
https://github.com/yxgeee/BAKE
項目主頁:
https://geyixiao.com/projects/bake
簡介
圖像分類是計算機視覺最基本的任務之一,為眾多下游視覺任務提供了有效的預訓練模型。深度學習時代以來,有大量的算法致力于提升圖像分類的性能,尤其是在最流行的 ImageNet 基準上。近期一些研究指出,不夠完善的人為標注成為了阻礙監督訓練的分類模型性能進一步提升的關鍵問題。具體來說,人為標注的單標簽(一圖一類)無法準確描述圖像中的豐富內容。?
為此,許多研究者提出利用知識蒸餾(Knowledge Distillation)算法可以自動生成“軟性”多標簽作為有效的訓練監督,彌補單標簽系統所帶來的缺陷。最先進的算法發現,整合多個教師(下圖 a)或學生模型(下圖 b)的預測可以生成更魯棒的訓練監督,進一步提升模型的性能,我們將這類算法稱之為整合蒸餾(Ensemble Distillation)算法 [1,2,3]。雖然這類算法取得了最先進的性能,但他們依賴于額外的網絡模型或參數,無疑大大增加了訓練時計算和顯存的成本。
(a) 多教師模型的知識整合;(b) 多學生模型的知識整合;(c) BAKE: 批次內樣本間的知識整合
在該論文中,我們提出了一種新穎的“烘焙”(BAKE)訓練機制(上圖 c),整合批次內不同樣本間的知識在線優化蒸餾目標,即,將同一批次中樣本知識進行加權傳播和匯總,而無需多個網絡。BAKE 首次實現在自蒸餾框架下的知識整合,以最少的訓練時間開銷和零額外網絡參數為代價,持續有效地提高了各種網絡架構和數據集的分類性能。例如,使用 BAKE 訓練的 ResNet-50 在 ImageNet 上的 top-1 分類準確率顯著提升 1.2%,而相比基線模型訓練所增加的計算開銷僅為 3.7%。
除了上述知識蒸餾系列算法之外,還有一類研究被稱之標簽精煉(Label Refinery)算法 [4]。他們往往利用一個預訓練標注器為 ImageNet 進行重新標注,該標注器一般為在更大規模的數據集上訓練的較深的網絡模型,這不僅需要增加額外的模型,還依賴于額外的超大規模數據集和更多的訓練資源,在實際應用中不夠靈活。
本文所提出的BAKE算法與已有的自蒸餾、整合蒸餾、標簽精煉算法的主要區別
方法
傳統整合蒸餾算法[1,2,3]往往整合的是多個網絡模型對于單個樣本的預測,與之不同的是,BAKE 整合單網絡模型對于批次內多樣本的預測。直觀地來看,視覺上相似的樣本應當具有近似的預測。基于該假設,BAKE 依據同批次內其他樣本對錨樣本的相似度,進行知識的加權傳播和匯總,以形成準確的軟標簽,作為蒸餾訓練的監督(見下圖)。
BAKE訓練框架
樣本間的知識傳播基于不同樣本與錨樣本之間的相似性,所以首先需要計算一個親和度矩陣 ,也就是計算圖像編碼器(encoder)輸出的特征 之間的距離。親和度矩陣需要去除對角線 ,也就是同一樣本的相似度,并在每行進行 softmax 歸一化,使得每一行的和為 1,即 。
基于親和度矩陣 ,可以對除錨樣本之外的其他樣本的預測進行加權傳播,。并與錨樣本本身的預測概率進行加權和,從而獲得軟標簽作為蒸餾目標 。至此,對批次內樣本間知識進行了一次傳播,并獲得了一次傳播后的軟標簽。
往往基于親和度矩陣對樣本預測做多次傳播可以獲得更魯棒準確的軟標簽,。我們利用近似預測對傳播無限次后的軟標簽進行了估計 。基于上述知識整合后的軟標簽 ,可以使用 KL 散度損失函數進行蒸餾訓練。
實現
訓練的偽代碼如下,具體實現請參閱 GitHub repo。
實驗
BAKE 以最小的計算開銷改進了多種網絡架構的訓練,并且無需額外的網絡輔助。下圖匯報了在 ImageNet 上的 top-1 分類準確率。
BAKE在ImageNet上的性能, “Vanilla”表示使用常規交叉熵損失的基準訓練
BAKE 不光有效提升了基準模型的訓練,也超越了所有單網絡下最先進的訓練機制,見下圖。
單網絡模型訓練算法的對比
我們也對 BAKE 所生成的軟標簽進行了可視化,如下圖,其中每列的四個樣本來自于同一批次,請注意,為了簡潔,這里只對 top-3 的類別進行了展示。
BAKE所生成的軟標簽示例
我們還檢驗了利用 BAKE 訓練的分類模型在下游任務中的表現,觀察到 BAKE 所訓練的模型在目標檢測和實例分割中均可獲得穩定的性能提升。
BAKE訓練的模型在下游任務中的性能
更多性能分析、魯棒性測試、消融研究結果請參閱原論文。
總結和思考
BAKE 是一個非常簡潔輕量的算法,無需任何額外的輔助網絡就可以生成魯棒的軟標簽。BAKE 為知識蒸餾中的知識整合提供了一個全新的思路,打破了固有的多模型整合的樣式,創新地提出并嘗試了樣本間的知識整合。目前我們只在最傳統的監督分類訓練中驗證了 BAKE,但 BAKE 的潛力應遠不止此,我們后續也會繼續在更多的任務中驗證 BAKE 的思想,也歡迎大家在自己的訓練任務中嘗試加入此類樣本間知識整合思想。
參考文獻
[1] Zhiqiang Shen, Zhankui He, and Xiangyang Xue. Meal: Multi-model ensemble via adversarial learning. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 4886–4893, 2019.?
[2] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive representation distillation. In International Conference on Learning Representations, 2020.?
[3] Qiushan Guo, Xinjiang Wang, Yichao Wu, Zhipeng Yu, Ding Liang, Xiaolin Hu, and Ping Luo. Online knowledge distillation via collaborative learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11020–11029, 2020.?
[4] Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, and Sanghyuk Chun. Re-labeling imagenet: from single to multi-labels, from global to localized labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的“烘焙”ImageNet:自蒸馏下的知识整合的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 晚还了一天房贷有关系么?
- 下一篇: 合肥50万的公寓办房产证要多少钱?