當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SE注意力机制

發(fā)布時間：2023/12/20 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 SE注意力机制小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

SENet-通道注意力筆記

- 簡介
- - - - 意義
      - 目的：
      - 主要操作
- 算法流程圖
- - 過程
  - - - 第一步、
        第二步、
        第三步、
        第四步、
- SE模塊的結(jié)構(gòu)圖
- 實(shí)現(xiàn)代碼
- 最后

簡介

SENet是2017年ImageNet比賽的冠軍，2018年CVPR引用量第一。論文鏈接:SENet

意義

較早的將attention引入到CNN中，模塊化化設(shè)計(jì)。

目的：

SE模塊的目的是想通過一個權(quán)重矩陣，從通道域的角度賦予圖像不同位置不同的權(quán)重，得到更重要的特征信息。

主要操作

SE模塊的主要操作：擠壓（Squeeze)、激勵（Excitation）

算法流程圖

通過一系列操作得到一個 $1 ? 1 ? C$ 的權(quán)重矩陣，對原特征進(jìn)行重構(gòu)（不同顏色表示不同的數(shù)值，用來衡量通道的重要性）

過程

第一步、

Transformation $F{_t}{_r})$ :給定一個input特征圖 $X$ ，讓其經(jīng)過 $F{_t}{_r}$ 操作生成特征圖 $U$ 。
注意：在常用的卷積神經(jīng)網(wǎng)絡(luò)中Transformation操作一般為一個卷積操作。我們通常在聊SE注意力時通常不包含這一步。

第二步、

Squeeze $F{_s}{_q}(·))$ ::這一步將特征圖進(jìn)行全局平均池化,生成一個 $1 ? 1 ? C$ 的向量，這樣每個通道讓一個數(shù)值表示。
注釋：對 $U$ 實(shí)現(xiàn)全局低維嵌入，相當(dāng)于一個數(shù)值擁有該通道的全局感受野。
公式：

此外：論文中給出了使用平均池化與最大池化的實(shí)驗(yàn)對比。

第三步、

Excitation $F{_e}{_x})$ :這一步通過兩層全連接層完成，通過權(quán)重W生成我們我所要的權(quán)重信息，其中W是通過學(xué)習(xí)得到的，用來顯示的建模我們我需要的特征相關(guān)性。

通過兩個全連接層 $W{_1}$ , $W{_2}$ 對上一步得到的向量 $z$ 進(jìn)行處理，得到我們想要的通道權(quán)重值 $s$ ,經(jīng)過兩層全連接層后，s中不同的數(shù)值表示不同通道的權(quán)重信息，賦予通道不同的權(quán)重。
注意：兩層全連接層之間存在一個超參數(shù) $R$ , 向量 $z$ $(1 ? 1 ? C)$ 經(jīng)過第一層全連接層后維度由
$(1 ? 1 ? C)$ 變?yōu)?span id="ze8trgl8bvbq" class="katex--inline"> $(1 ? 1 ? C / R)$ ,再經(jīng)過第二層全連接層為度由 $(1 ? 1 ? C / R)$ 變?yōu)?span id="ze8trgl8bvbq" class="katex--inline"> $(1 ? 1 ? C)$ 。第一層全連接層的激活函數(shù)為ReLU，第二層全連接層的激活函數(shù)為Sigmoid。

第四步、

Scale $F{_{scale}})$ :由算法流程圖可以看出，第四步的操作是將第三步生成權(quán)重向量 $s$ 對特征圖 $U$ 進(jìn)行權(quán)重賦值,得到我們想要的特征圖 $X~\tilde X$ ，其尺寸大小與特征圖 $U$ 完全一樣，SE模塊不改變特征圖的小大。

通過生成的特征向量 $s$ （ $1 ? 1 ? C$ ）與特征圖 $U$ ( $H ? W ? C$ )，對應(yīng)通道相乘，即特征圖 $U$ 中每個通道的 $H ? W$ 個數(shù)值都乘 $s$ 中對應(yīng)通道的權(quán)值。

SE模塊的結(jié)構(gòu)圖

SE模塊是一個即插即用的模塊，在上圖中左邊是在一個卷積模塊之后直接插入SE模塊，右邊是在ResNet結(jié)構(gòu)中添加了SE模塊。

實(shí)現(xiàn)代碼

import torch.nn as nnclass SEModel(nn.Module):def __init__(self, channel, reduction=16):super(SEModel, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc = nn.Sequential(nn.Linear(channel, channel // reduction, bias=False),nn.ReLU(),nn.Linear(channel // reduction, channel, bias=False),nn.Sigmoid())def forward(self, x):b, c, _, _ = x.size()y = self.avg_pool(x).view(b, c)y = self.fc(y).view(b, c, 1, 1)return x * y.expand_as(x)

網(wǎng)上有較多的公開代碼，都可以進(jìn)行參考。

最后

SE模塊在使用時如何選擇添加的位置是值得考慮的問題，如何實(shí)現(xiàn)最大化的提升。
MobileNetV3中使用了SE模塊，通過神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索進(jìn)行了最優(yōu)位置選擇，值得思考與學(xué)習(xí)。

如有錯誤，望大家指正。B站上有很多大佬的講解視頻，喜歡視頻講解的可以看一下。

總結(jié)

以上是生活随笔為你收集整理的SE注意力机制的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： vue样式中背景图片路径_vue打包cs
下一篇： mysql 单标递归_MySql8 WI