[论文阅读] Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning
論文地址:https://arxiv.org/abs/2203.06359
發(fā)表于:CVPR 22
Abstract
無示范的類增量學(xué)習(xí)是指在舊類樣本無法保存的情況下,同時(shí)識(shí)別新舊兩類。這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)橹挥性谛骂惖谋O(jiān)督下才能實(shí)現(xiàn)表征優(yōu)化和特征保留。為了解決這個(gè)問題,我們提出了一個(gè)新穎的自我維持的表征擴(kuò)展方案。我們的方案包括一個(gè)結(jié)構(gòu)重組策略,該策略融合了主枝擴(kuò)展和側(cè)枝更新來保持舊的特征,以及一個(gè)主枝蒸餾方案來轉(zhuǎn)移不變的知識(shí)。此外,還提出了一種原型選擇機(jī)制,通過有選擇地將新樣本納入蒸餾過程來提高新舊類別之間的區(qū)分度。在三個(gè)基準(zhǔn)上進(jìn)行的廣泛實(shí)驗(yàn)顯示了顯著的增量性能,分別以3%、3%和6%的幅度超過了最先進(jìn)的方法。
I. Overview
本文的創(chuàng)新點(diǎn)同樣也是經(jīng)典的三個(gè),分別為圖中的Dynamic Structure Reorganization(DSR)、Main-Branch Distillation(MBD)、Prototype Selection Mechanism(PSM)。
首先,我們先簡(jiǎn)單復(fù)習(xí)下經(jīng)典的帶示例的增量學(xué)習(xí)的流水線。對(duì)于新類樣本,在使用交叉熵?fù)p失學(xué)習(xí)表征的同時(shí),也使用蒸餾損失來減少對(duì)舊類的遺忘。此外,存儲(chǔ)的舊類示例也會(huì)被一同訓(xùn)練,以顯式監(jiān)督的形式進(jìn)一步去強(qiáng)化對(duì)舊類的回憶。然而,由于NECIL(Non-Exemplar CIL)不能去直接存儲(chǔ)舊類的樣本,因此本文采取了一種較為常見的替代方式,即直接存儲(chǔ)舊類的原型表征(prototype representation)本身,具體的存儲(chǔ)實(shí)現(xiàn)與PASS[1](CVPR 20)類似。一個(gè)不同之處在于,本文相比與PASS而言還使用了over sample策略,以對(duì)分類頭進(jìn)行進(jìn)一步的校準(zhǔn)。
II. Dynamic Structure Reorganization
DSR包含Structural Expansion與Structural Reparameterization兩個(gè)部分。
Structural Expansion,字面意思,結(jié)構(gòu)擴(kuò)充,就是為深度網(wǎng)絡(luò)添加的額外的層,以增大網(wǎng)絡(luò)參數(shù)量的形式使得網(wǎng)絡(luò)在學(xué)習(xí)新知識(shí)的同時(shí),減少對(duì)舊知識(shí)的覆蓋。但是,持續(xù)增大參數(shù)量的話會(huì)使網(wǎng)絡(luò)變得臃腫,從而違背增量學(xué)習(xí)的原則。實(shí)際上,本文添加的結(jié)構(gòu)僅僅是為了輔助網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。我們來回看一下示意圖:
其中灰色立方體框出來的部分就是深度網(wǎng)絡(luò)的一個(gè)Encoder Block。Encoder Block由若干個(gè)卷積組成,而一個(gè)深度網(wǎng)絡(luò)一般包含五個(gè)Encoder Block。本文的做法是,在Encoder Block的基礎(chǔ)上添加額外的residual connection,對(duì)應(yīng)藍(lán)色連接線部分。在訓(xùn)練時(shí),首先凍結(jié)主網(wǎng)絡(luò)參數(shù),只對(duì)這些residual connection進(jìn)行訓(xùn)練。在訓(xùn)練完后,這些residual block中就可以包含一些新類的知識(shí)。
接下來,問題就成了怎么把這一額外結(jié)構(gòu)中的新類知識(shí)給融合回主網(wǎng)中。這一過程對(duì)應(yīng)著Structural Reparameterization,其結(jié)構(gòu)如下:
具體做法可能源自于RepVGG[2],通過zero-padding與linear transformation實(shí)現(xiàn)。在新類知識(shí)被融合后,額外的residual connection被移除以保證網(wǎng)絡(luò)參數(shù)不變。
III. Prototype Selection
具體做法是,對(duì)于新類樣本,計(jì)算其embedding與原型向量的相似性。如果這個(gè)相似性超過了某個(gè)閾值,說明該新類樣本與舊類樣本相似,容易混淆,此時(shí)為蒸餾損失增加一個(gè)mask,強(qiáng)調(diào)對(duì)新舊類的區(qū)分;如果這個(gè)相似性低于某個(gè)閾值,則說明該新類樣本與舊類樣本差異很大,此時(shí)為交叉熵?fù)p失增加一個(gè)mask,強(qiáng)調(diào)對(duì)新類特征的學(xué)習(xí)。
Ref
[1] Zhu, Fei, et al. “Prototype augmentation and self-supervision for incremental learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[2] Ding, Xiaohan, et al. “Repvgg: Making vgg-style convnets great again.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
總結(jié)
以上是生活随笔為你收集整理的[论文阅读] Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Centos 进入recovery模式,
- 下一篇: centos yum 安装jdk