當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Attention】Visual Attention Network

發布時間：2023/12/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【Attention】Visual Attention Network 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接：https://arxiv.org/abs/2202.09741
代碼鏈接：https://github.com/Visual-Attention-Network

源于 NLP 的 self-attention 機制在應用于 2D 圖像的時候，有三個問題：
將 2D 的結果看做 1D 的序列，會損失 2D 空間結構
高分辨率的圖像會導致很大的計算復雜度
一般的 self-attention 都是只會捕捉空間上的相關性，忽略了通道上的相關性

為了解決上述問題，本文提出了一個適用于視覺任務的 large kernel attention (LKA)，使得 self-attention 能夠自適應捕捉長距離關系。

LKA 吸收了卷積和 self-attention 的優勢——包括局部結構信息、長距離依賴、自適應性

基于 LKA，作者提出了新的視覺 backbone——visual attention network（VAN）。

如圖 2，一個大尺寸的卷積可以分成三個部分：

也就是說，一個 $\times K$ 的卷積可以被拆分如下：

一個 $\frac{K}ze8trgl8bvbq \times \frac{K}ze8trgl8bvbq $ 的 depth-wise dilation convolution， $d$ 為膨脹率
一個 $\times (2d-1)$ 的depth-wise convolution
一個 1x1 卷積

拆分后的卷積可以捕捉長距離信息，并且節省計算資源，得到長距離關系后，能夠估計每個點的重要程度，生成 attention map。

如圖3a所示，LKA 模型如下：

VAN 結構簡單，有四層，不同量級的模型結構如表 2 所示：

對圖3d中的每個stage，首先將輸入進行下采樣，然后再進行后續操作。

復雜度分析：

實現細節如下，使用下面三種卷積實現類似 21x21 的卷積

以上是生活随笔為你收集整理的【Attention】Visual Attention Network的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。