未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!
圖靈獎Yann LeCun團隊提出Masked Siamese ConvNets,讓Mask策略也能應用于基于ViT的孿生網絡,進行自監督學習!
【寫在前面】
自監督學習在各種視覺基準上表現出優于監督方法的性能。孿生網絡(siamese networks)鼓勵嵌入不受扭曲影響,是最成功的自監督視覺表示學習方法之一。在所有的增強方法中,掩蔽是最通用和最直接的方法,它有可能應用于各種輸入,并且需要最少的領域知識。然而,掩蔽的孿生網絡需要特殊的歸納偏置,并且實際上只能與 Vision Transformers 一起工作。這項工作實驗性地研究了帶有 ConvNets 的掩蔽孿生網絡背后的問題。作者提出了幾種設計來逐步克服這些問題。本文的方法在low-shot圖像分類上具有競爭力,并且在目標檢測基準上優于以前的方法。
1. 論文和代碼地址
Masked Siamese ConvNets
論文地址:https://arxiv.org/abs/2206.07700[1]
代碼地址:未開源
2. Motivation
自監督學習旨在從可擴展的未標記數據中學習有用的表示,而不依賴于人工注釋。它已在自然語言處理、語音識別和其他領域取得成功。自監督視覺表示學習也成為一個活躍的研究領域。
孿生網絡(siamese network)是許多自監督學習方法中的一種有前途的方法,并且在許多方面都優于有監督的同類網絡視覺基準。它鼓勵編碼器對人為設計的增強保持不變,只捕獲基本特征。實際上,孿生網絡方法依賴于特定領域的增強,例如裁剪、顏色抖動和高斯模糊,它們不適用于新領域。因此,希望找到一種需要最少領域知識的通用增強方法。
在各種增強中,掩蔽(mask)輸入仍然是最簡單和最有效的方法之一,已被證明對 NLP和語音有用。然而,直到最近視覺Transformer (ViTs)的成功,視覺模型才能利用掩蔽作為一般增強。當與 ViT 結合使用時,帶有掩碼的自監督學習已展示出更具可擴展性的特性。不幸的是,帶有掩蔽的孿生網絡不能很好地與大多數現成的架構一起工作,例如 ConvNets。
這項工作使用 ConvNets 確定了掩蔽孿生網絡背后的潛在問題。作者認為,掩蔽輸入會產生寄生邊緣,扭曲局部和全局特征之間的平衡,并且訓練信號更少。作者提出了幾種設計來逐步克服這些問題。如上圖所示,實驗表明,具有 ConvNets 主干的連體網絡可以從這些設計的掩碼輸入中受益。
本文貢獻如下:
1)作者確定了掩蔽孿生網絡在 ConvNets 主干上表現不佳的根本問題。
2)作者提出了幾種實驗設計,并逐漸克服了帶有 ConvNets 的掩蔽孿生網絡的問題。
3)作者提出了 Masked Siamese ConvNets (MSCN),它在low-shot圖像分類基準上具有競爭力,并且在目標檢測基準上優于以前的方法。
3. 帶有 ConvNets 的 Masked Siamese 網絡中的問題
帶有mask輸入的孿生網絡已經在 ViT上展示了的競爭性能。用現成的 ConvNet替換 ViT 會導致性能明顯下降。這里首先確定一些潛在的問題:
Masking Introduces Parasitic Edges
卷積核以其邊緣檢測行為而聞名。應用mask會在圖像中產生大量寄生邊緣。邊緣檢測內核生成的特征圖被嚴重扭曲,因此這些核在訓練期間被抑制。更重要的是,這些寄生邊緣將保留在輸出特征圖中并影響所有隱藏層。相反,ViT 避開了這個問題,因為mask通常被設計為匹配patch邊界。
在上圖中,作者可視化了編碼器的第一個卷積層核,這些核使用標準增強或掩碼輸入進行了預訓練。由于寄生邊緣,許多內核崩潰為瑣碎的空白特征。
Balance between Local and Global Features
隨機調整大小的裁剪是孿生網絡最關鍵的增強。通過改變裁剪的規模,孿生網絡找到了短程和長程相關性的精確組合,稱為局部/紋理特征和全局/語義特征。裁剪可以被認為是mask的一種特殊情況,但是隨機mask會根據mask網格大小以不同的比率扭曲局部和全局特征。在 ViT 中,mask網格大小是固定的,并設置為與patch大小相匹配。因此,空間掩蔽設計對 ViT 的這種平衡幾乎沒有影響。然而,具有尺度不變性歸納偏置的卷積網絡可能會受益于仔細的空間掩蔽設計。
Less Learning Signal
掩碼輸入僅包含部分信息,這導致學習信號較少。實際上,掩蔽方法通常需要更長的訓練時間或使用multicrops。例如,掩碼自動編碼器受益于長達 1600 個 epoch 的更長訓練。 Masked siamese networks通過使用 3 個額外的 multicrops,將 ImageNet-1K 的準確率提高了 20% 以上。這也導致 ConvNets 的計算效率降低,因為它們不能跳過像 ViTs 這樣的未屏蔽區域。
4. Designing Masked Siamese ConvNets
在本節中,作者提出了幾種實驗設計來克服上一節中討論的問題,并展示了最終掩蔽策略的軌跡。作者使用帶有 ResNet-50 骨干網的 SimCLR 作為baseline。對于本節的實驗,作者使用 LARS 優化器在 ImageNet-1K訓練集上對每個模型進行 100 個 epoch 的預訓練,batch大小為 4096。所有結果都是 ImageNet-1K 驗證集上的linear probe精度。
4.1 Preliminaries
孿生網絡的目標是學習輸入圖像的表示,以便它們可以用于下游任務。大多數方法從從相同的輸入 x 隨機創建兩個crop 和 開始,然后crop應用兩組隨機增強變換 和。然后孿生網絡訓練一個編碼器,使得。這在孿生網絡中被稱為正項。
在這項工作中,正項和增強是我本文主要關注點。正確設計的對于學習良好的表示至關重要,因為沒有它的孿生網絡不能保證中的所有特征都對下游任務有用??紤]給定任務的useful特征 和 trivial特征 ,兩者都滿足負項。如果和 ,那么孿生網絡可以從使用增強中受益。由于 g 會導致更高的正項,那么編碼器更有可能通過訓練收斂到 f 而不是 g。因此,通過向預訓練pipeline添加數據增強來從表示中刪除trivial特征。
此外,傳統模式識別在圖像分類或對象檢測方面具有手工特征的次優性能表明,這些任務的有用特征不具有數學或概念上的簡單性。因此,當設計增強時,作者正在尋找數學或概念上的簡單特征,并提出增強以防止網絡收斂到這些特征。
4.2 Designing Principle
標準增強可防止基于簡單輸入統計的表面特征。但是,使用掩蔽輸入,表面特征可能會利用掩蔽區域并超過有用的區域。將掩碼表示為,將掩碼區域的填充值表示為。這個掩蔽圖像可以寫成 。因此,得出了本文的掩蔽設計原則。對于一個useful特征 和一個 trivial特征,作者要求和滿足:
4.3 Spatial Dimension
作者首先關注空間維度來研究如何在孿生網絡中最好地利用掩蔽。首先在同一個隨機裁剪上應用兩個隨機網格掩碼(網格大小 32),掩蔽率固定為 30%,沒有其他增強。為了克服由任意網格掩碼邊界引入的寄生邊緣問題,作者在應用掩碼之前應用高通濾波器。如上圖所示,使用高通濾波器,寄生邊緣變得不可見。此外,輸入圖像中的特殊值 0 表示空信息,而不是正常的像素值。使用高通濾波器,模型精度提高到 30.2%。
平衡輸入中的短程和長程特征以學習有用的表示是至關重要的。除了隨機網格掩碼(grid mask)外,作者還應用了焦點掩碼(focal mask)。如上圖所示,焦點蒙版可以看作是隨機裁剪,無需調整大小。作者應用 20% 的焦點掩碼和 80% 的網格掩碼。作者隨機組合了隨機網格掩碼和焦點掩碼樣本。這將模型精度提高到31.0%。
最后,作者將空間掩蔽設計與標準隨機調整大小裁剪相結合。允許兩個分支使用不同的裁剪視圖。這種組合方法達到了 40.0% 的準確率。注意,在沒有mask的情況下,使用僅裁剪增強的模型只能獲得 33.5% 的準確率
4.4 Channel Dimension
然后作者關注在通道維度上設計掩碼。首先,作者發現向mask區域添加噪聲是有益的。如上圖所示,這可以防止網絡利用整體顏色直方圖,并且等效于在mask區域上應用顏色抖動。向mask區域添加噪聲可將準確度從 40.0% 提高到 48.2% 接下來,作者隨機應用一個通道獨立的掩碼。除了標準的空間mask,作者在三個顏色通道上應用相同的mask,作者生成三個隨機mask并將它們分別應用于每個顏色通道。作者發現以 70% 的概率應用通道獨立掩碼是最佳的。如上圖所示,這將準確度提高到 53.6%。
最后,作者將通道mask設計與標準增強相結合。通過在應用蒙版之前對兩個分支應用顏色抖動和灰度,該模型達到了 63.0% 的準確率。接下來,在兩個分支上隨機應用高斯模糊將準確率提高到 65.1%。
4.5 Macro Designs
作者發現增加兩個網絡之間的不對稱性可以提高準確性。通過改變兩個分支之間的概率,模型精度提高到 65.6%。
掩蔽孿生網絡在每次迭代中接收的信息較少。作者生成多個mask輸入并在不對稱對上應用聯合嵌入損失。這種多mask設計將準確度提高到 67.4%。最終設計比不應用mask好 1.0%,比使用標準增強加上隨機mask好 5.2%。
4.6 Design Summary
按照本文的設計原則,作者逐步改進了掩蔽策略。將整體設計總結如下:
應用標準增強:RandomResizedCrop、HorizontalFlip、ColorJitter、Grayscale、GaussianBlur;
應用高通濾波器;
應用mask(空間維度:焦點掩碼和隨機網格掩碼 通道維度:通道獨立掩碼和空間掩碼),并將隨機噪聲添加到mask區域;
增加不同分支之間的不對稱性;
應用多重mask。
整體 Masked Siamese ConvNets (MSCN) 架構如上圖所示。MSCN 利用任意骨干架構和各種聯合嵌入損失函數。
4.實驗
作者首先使用linear probe和半監督分類評估 ImageNet-1K 數據集上的表示。在上表中,作者將 MSCN 與baseline進行比較,可以看出,本文方法相比于其他方法有明顯的提升。
作者在上表中比較了mask對 ConvNet 和 ViT 的影響。具有 ConvNet 主干的 MSCN 與具有 ViT 主干的 MSN 表現出相似的表現。
作者在上表中報告了 iNaturalist 2018數據集和 Places-205數據集上的遷移圖像分類結果。
在表中,作者報告了 VOC07+12 和 COCO 數據集上的目標檢測和實例分割性能。
在上表中,作者探索了最佳掩蔽率。0.15 的小掩蔽率對于 ResNet-50 主干網絡是最佳的。作者還觀察到,使用本文的掩蔽策略,對于高達 0.50 的掩蔽率,精度相對穩定。
在上表中,作者展示了學習表示可以從更好的掩碼網格大小中受益。
在本文的mask策略中,作者應用標準增強來生成多個視圖,然后在這些視圖上隨機應用mask。一種替代方法是在同一增強視圖上應用隨機掩碼。上表顯示,在同一視圖上應用掩碼會導致顯著更差的表示。
5. 總結
這項工作提出了一種使用 ConvNets 向孿生網絡添加掩蔽增強的方法。作者首先介紹使用掩蔽作為增強引入的問題。然后仔細研究如何通過改變掩蔽策略來逐步提高下游任務的性能以解決或緩解問題。本文的方法在low-shot圖像分類基準上具有競爭力,并且在目標檢測基準上優于以前的方法。
已建立深度學習公眾號——FightingCV,歡迎大家關注!!!
ICCV、CVPR、NeurIPS、ICML論文解析匯總:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
面向小白的Attention、重參數、MLP、卷積核心代碼學習:https://github.com/xmu-xiaoma666/External-Attention-pytorch
參考資料
[1]https://arxiv.org/abs/2206.07700: https://arxiv.org/abs/2206.07700
本文由 mdnice 多平臺發布
總結
以上是生活随笔為你收集整理的未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Datawhale-数据分析-泰坦尼克-
- 下一篇: 杭电ACM 1000题