自注意力真的是Transformer的必杀技吗?MSRA否认三连,并反手给你扔来一个sMLPNet
作者丨happy
編輯丨極市平臺
本文原創首發于極市平臺公眾號,轉載請獲得授權并標明出處。
論文鏈接:https://arxiv.org/pdf/2109.05422.pdf
個人思考
自今年5月份MLP-Mixer橫沖出世以來,4個月的時間里出來了20+MLP相關的論文,從MLP-Mixer、ResMLP、gMLP到A2-MLP、CCS,再到ViP,MLP相關的結構好像一下被探索到頭,自ViP之后的MLP相關的paper大多都借鑒了ViP的思想,此外再小心翼翼的加點不一樣的小改進。與此同時,優異的Vision Transformer也在嘗試將其內在的自注意力替換為MLP,比如Swin Transformer的變種SwinMLP 。
這篇論文有種組合CSWin(7月份上線arXiv)、ViP(6月份上線arXiv)的味道,但實驗部分又并未與兩者進行比較。雖然文末提到了sMLPNet與CSWin是同期工作,見如下。
We notice that some concurrent Transformer-based models, such as CSWin, have obtained an even higher accuracy than sMLPNet…
但是sMLPNet并未提到6月份就已上線arXiv的ViP,著實不應該,關鍵的是:兩者的部分思想是那么相似。此外,消融實驗中也看到了ViP中的加權融合與Concat+FC融合的對比。隱約說明:sMLPNet應該是知道ViP,但因為性能不如ViP而刻意沒寫。
當然,sMLPNet的重點不是跟誰比性能,旨在對Transformer中的自注意力機制的必要性進行挖掘與探索并得出“自注意力并非Transnformer取得優異性能的秘密武器 ”。
sMLPNet比較新穎的一個點:token-mixing部分同時進行了局部與全局依賴建模。局部依賴建模比較容易想到,DWConv即可;全局建模用則從CSWin那里借鑒了一些idea。兩者一組合就取得了非常👍🏻的指標。
但是呢,sMLPNet引入了BN與DWConv后就不能算作是純MLP架構,可能這也是之前MLP類模型非常小心翼翼的原因吧,生怕影響“出身”(狗頭)。
下面正式介紹本篇論文
Abstract
本文對Transformer中的核心模塊自注意力模塊進行探索:它是否是Transformer在圖像識別任務中取得優異性能的關鍵?
我們構建了一種Attention-free的、基于MLP的sMLPNet。具體來講,我們將MLP模塊中的token-mixing替換為稀疏MLP(sparse MLP, sMLP)模塊 。對于2D圖像tokens,sMLP沿軸向進行1DMLP,同時在行/列方向上分別進行參數共享。受益于稀疏連接與參數共享,sMLP模塊可以大幅降低模型參數量與計算量,進而避免了干擾MLP類模型性能的“過擬合”問題。
sMLPNet僅需24M參數即可在ImageNet數據及上取得81.9%top1精度,優于同等大小的CNN與Vision Transformer;當參數量擴大到66M,sMLPNet取得了83.4%top1精度,具有與Swin Transformer相當精度。sMLPNet的成功說明:自注意力機制并非Transformer取得優異性能的關鍵所在。
全文鏈接:自注意力真的是Transformer的必殺技嗎?MSRA否認三連,并反手給你扔來一個sMLPNet
總結
以上是生活随笔為你收集整理的自注意力真的是Transformer的必杀技吗?MSRA否认三连,并反手给你扔来一个sMLPNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在目标检测被“遗忘”领域进行探索后,百度
- 下一篇: 别魔改网络了,Google研究员:模型精