當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自注意力真的是Transformer的必杀技吗？MSRA否认三连，并反手给你扔来一个sMLPNet

發布時間：2025/3/8 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了自注意力真的是Transformer的必杀技吗？MSRA否认三连，并反手给你扔来一个sMLPNet 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨happy
編輯丨極市平臺
本文原創首發于極市平臺公眾號，轉載請獲得授權并標明出處。

論文鏈接：https://arxiv.org/pdf/2109.05422.pdf

個人思考

自今年5月份MLP-Mixer橫沖出世以來，4個月的時間里出來了20+MLP相關的論文，從MLP-Mixer、ResMLP、gMLP到A2-MLP、CCS，再到ViP，MLP相關的結構好像一下被探索到頭，自ViP之后的MLP相關的paper大多都借鑒了ViP的思想，此外再小心翼翼的加點不一樣的小改進。與此同時，優異的Vision Transformer也在嘗試將其內在的自注意力替換為MLP，比如Swin Transformer的變種SwinMLP 。

這篇論文有種組合CSWin(7月份上線arXiv)、ViP(6月份上線arXiv)的味道，但實驗部分又并未與兩者進行比較。雖然文末提到了sMLPNet與CSWin是同期工作，見如下。

We notice that some concurrent Transformer-based models, such as CSWin, have obtained an even higher accuracy than sMLPNet…

但是sMLPNet并未提到6月份就已上線arXiv的ViP，著實不應該，關鍵的是：兩者的部分思想是那么相似。此外，消融實驗中也看到了ViP中的加權融合與Concat+FC融合的對比。隱約說明：sMLPNet應該是知道ViP，但因為性能不如ViP而刻意沒寫。

當然，sMLPNet的重點不是跟誰比性能，旨在對Transformer中的自注意力機制的必要性進行挖掘與探索并得出“自注意力并非Transnformer取得優異性能的秘密武器 ”。

sMLPNet比較新穎的一個點：token-mixing部分同時進行了局部與全局依賴建模。局部依賴建模比較容易想到，DWConv即可；全局建模用則從CSWin那里借鑒了一些idea。兩者一組合就取得了非常👍🏻的指標。

但是呢，sMLPNet引入了BN與DWConv后就不能算作是純MLP架構，可能這也是之前MLP類模型非常小心翼翼的原因吧，生怕影響“出身”（狗頭）。

下面正式介紹本篇論文

Abstract

本文對Transformer中的核心模塊自注意力模塊進行探索：它是否是Transformer在圖像識別任務中取得優異性能的關鍵？

我們構建了一種Attention-free的、基于MLP的sMLPNet。具體來講，我們將MLP模塊中的token-mixing替換為稀疏MLP(sparse MLP, sMLP)模塊 。對于2D圖像tokens，sMLP沿軸向進行1DMLP，同時在行/列方向上分別進行參數共享。受益于稀疏連接與參數共享，sMLP模塊可以大幅降低模型參數量與計算量，進而避免了干擾MLP類模型性能的“過擬合”問題。

sMLPNet僅需24M參數即可在ImageNet數據及上取得81.9%top1精度，優于同等大小的CNN與Vision Transformer；當參數量擴大到66M，sMLPNet取得了83.4%top1精度，具有與Swin Transformer相當精度。sMLPNet的成功說明：自注意力機制并非Transformer取得優異性能的關鍵所在。

全文鏈接：自注意力真的是Transformer的必殺技嗎？MSRA否認三連，并反手給你扔來一個sMLPNet

總結

以上是生活随笔為你收集整理的自注意力真的是Transformer的必杀技吗？MSRA否认三连，并反手给你扔来一个sMLPNet的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：在目标检测被“遗忘”领域进行探索后，百度
下一篇：别魔改网络了，Google研究员：模型精