當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉算法——图像分类网络总结

發布時間：2025/3/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机视觉算法——图像分类网络总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

計算機視覺算法——圖像分類網絡總結

計算機視覺算法——圖像分類網絡總結
- 1. AlexNet
- - 1.1 網絡結構
  - 1.2 關鍵知識點
  - - 1.2.1 卷積和池化特征尺寸計算公式
    - 1.2.2 ReLU非線性激活函數
    - 1.2.3 防止過擬合
- 2. VGG
- - 2.1 網絡結果
  - 2.2 關鍵知識點
  - - 2.2.1 感受野的計算以及大小卷積核
- 3. GoogLeNet
- - 3.1 網絡結構
  - 3.2 關鍵知識點
  - - 3.2.1 Inception結構
    - 3.2.2 $\times 1$ 卷積作用
    - 3.2.3 輔助分類器
- 4. ResNet
- - 4.1 網絡結構
  - 4.2 關鍵知識點
  - - 4.2.1 residual模塊
    - 4.2.2 batch normalization
- 5. ResNeXt
- - 5.1 網絡結構
  - 5.2 關鍵知識點
  - - 5.2.1 分組卷積
- 6. MobileNet
- - 6.1 網絡結構
  - 6.2 關鍵知識點
  - - 6.2.1 Depthwise Separable Convolution
    - 6.2.2 Inverted Residuals Block 和 Linear Bottleneck（MobileNet V2）
    - 6.2.3 bneck（MobileNet V3）
- 7. ShuffleNet
- - 7.1 網絡結構
  - 7.2 關鍵知識點
  - - 7.2.1 Channel Shuffle思想
    - 7.2.2 設計高效網絡準則
- 8. EfficientNet
- - 8.1 網絡結構
  - 8.2 關鍵知識點
  - - 8.2.1 MBConv
    - 8.2.2 Processive Learning漸進學習策略

計算機視覺算法——圖像分類網絡總結

由于后面工作方向的需要，也是自己的興趣，我決定補習下計算機視覺算法相關的知識點，參考的學習資料主要是B站Up主霹靂吧啦Wz，強推一下，Up主的分享非常的細致認真，從他這里入門是個不錯的選擇，Up主也有自己的CSDN博客，我這里主要是作為課程的筆記，也會加入一些自己的理解，我也只是個入門的小白，如果有錯誤還請讀者指正。

要入門基于DNN的計算機視覺，分類網絡構架是基礎，分類網絡會作為各種衍生網絡的backbone，也就是重要組成部分，起到了提取特征等作用，下面開始逐個總結各個圖像分類網絡的特點。

1. AlexNet

AlexNet是2012年CVPR發表的一篇革命性的論文，現在的引用量都快接近8w了，它的主要創新點是：

首次利用GPU進行網絡加速訓練；

使用了RxeLU激活函數，而不是傳統的SIgmoid激活函數以及Tanh激活函數；

使用了LRN局部響應歸一化；

在全連接層的前兩層使用了Dropout隨機失活神經元操作，以減少過擬合；

1.1 網絡結構

AlexNet網絡由五層卷積加三層最大池化層，以及最后三層的全連接層構成，那會兒由于GPU顯存不夠大，因此作者采用的方式是將一張圖一份為二，分別使用兩張GPU訓練，在進行第三層卷積時會將兩張GPU的輸出進行聯合輸入，在其他層數據都是獨立的。

1.2 關鍵知識點

1.2.1 卷積和池化特征尺寸計算公式

AlexNet中主要是使用了卷積和最大池化層，卷積后特征尺寸計算公式為： $N = (W ? F + 2 P) / S + 1$ 其中，輸入特征尺寸為 $W$ ，卷積核的大小為 $\times F$ ，卷積步daxiao長為 $S$ ，padding的像素數為 $P$ ，那么輸出特征尺寸即為 $N$ 。池化可以看作一種特殊的卷積核，因此池化后特征尺寸計算同樣滿足上述規律。

1.2.2 ReLU非線性激活函數

ReLU非線性激活函數有如下優勢：

可以使網絡訓練更快。相比于sigmoid、tanh，導數更加好求，反向傳播就是不斷的更新參數的過程，因為其導數不復雜形式簡單；

增加網絡的非線性。本身為非線性函數，加入到神經網絡中可以是網格擬合非線性映射；

防止梯度消；

使網格具有稀疏性；

1.2.3 防止過擬合

AlexNet中使用兩種方法減少過擬合，分別是：

數據擴增：對圖片進行隨機crop以及對RGB顏色空間進行調整

Dropout：在訓練階段的每次前向傳播中，都會重新進行 dropout。因此，每次有新的輸入時，模型會被隨機采樣成不同的架構，但是所有的架構共享權值。該技術可以減少神經元之間的相互依賴性。因此，模型被強制學習更加穩健的特征。

2. VGG

VGG是2014年由牛津大學提出的，是應用非常廣泛的一種backbone，此方法在提出時主要的貢獻是：

文章提出通過堆疊多個

\times 3

的卷積核可以代替大尺度卷積核，在保證相同感受野的前提下，增加了網絡深度，并且

3×33\times3

的卷積核更有利于保留圖像性質，改善了網絡效果。

2.1 網絡結果

VGG網絡的具體參數如下：

其中網絡D包含16個隱藏層，稱為VGG16，網絡D包含19個隱藏層，稱為VGG19，VGG16的結構如下圖所示：

這里值得注意的一點是，在網絡D中，卷積層中卷核大小為 $\times 3$ ，步距為1，padding為1，最大池化層的尺寸為2，步距為2，因此我們可以計算經過卷積層后的特征尺寸不變，經過最大池化層后特征尺寸減半。此外最后三層為全連接層，占據了網絡的絕大多數參數數量。

2.2 關鍵知識點

2.2.1 感受野的計算以及大小卷積核

這是VGG網路中最大的亮點，首先我們來了解下什么是感受野：在卷積神經網絡中，決定某一層輸出結果中一個元素對應的輸入層的區域大小，稱作感受野，也可以說是feature map上的一個單元對應輸入層的區域的大小，如下圖的例子：

在上圖中我們設置卷積核大小為 $3×33\times3$ ，步距為1，padding為0，按照前文的特征尺寸計算公式， $5×55\times5$ 的特征，經過一層卷積后大小為 $3×33\times3$ ，再經過一層卷積后大小為 $1×11\times1$ ，感受野就是反過來推導， $1×11\times1$ 的特征單元在兩層卷積前對應的區域的大小即 $5×55\times5$ ，因此兩層 $3×33\times3$ 的卷積核的感受野的大小即 $5×55\times5$ ，即可以代替一個 $5×55\times5$ 的卷積核。我們來計算下兩種方法需要的參數數量，對于 $5×55\times5$ 的卷積核，參數數量為： $\times 5 \times C \times C = 25C^2$ 對于兩層 $3×33\times3$ 的卷積核，參數數量為： $\times 3 \times C \times C + 3 \times 3 \times C \times C = 18C^2$ 由此可見，在感受野相同的情況下，疊加小卷積核的數量更小，并且網絡更深，效果更有，并且有文章稱 $3×33\times3$ 更有利于保持圖像性質。

3. GoogLeNet

GoogLeNet的網絡的亮點主要有：

引入Inception結構，用于融合不同尺寸的特征信息；

使用

\times 1

的卷積核進行降維以及映射處理；

添加兩個輔助分類器幫助訓練

丟棄全連接層，使用平均池化層，大大減少模型參數；

3.1 網絡結構

我們可以注意到，在AlexNet和VGG中都是串行處理，而在GoogLeNet通過Inception結構實現了并行處理，下面我們對Inception結構的細節進行討論，

3.2 關鍵知識點

3.2.1 Inception結構

Inception結構設計的核心思想是，通過多個卷積核提取圖像不同尺度的信息，最后進行融合，以得到圖像更好的表征，我們以第三層的Inception結構為例，結構圖如下：

具體來說，分別是：

64個1x1的卷積核，然后RuLU，輸出28x28x64；

96個1x1的卷積核，作為3x3卷積核之前的降維，變成28x28x96，然后進行ReLU計算，再進行128個3x3的卷積（padding為1），輸出28x28x128；

16個1x1的卷積核，作為5x5卷積核之前的降維，變成28x28x16，進行ReLU計算后，再進行32個5x5的卷積（padding為2），輸出28x28x32；

pool層，使用3x3的核（padding為1），輸出28x28x192，然后進行32個1x1的卷積，輸出28x28x32。

最后將四個結果進行連接，對這四部分輸出結果的第三維并聯，即64+128+32+32=256，最終輸出28x28x256，這一步操作稱為concate。

3.2.2 $\times 1$ 卷積作用

$\times 1$ 卷積層引起人們重視是在NIN的網絡結構中，在GoogLeNet網絡中， $\times 1$ 卷積層主要是用于降維和升維，目的在與減少網絡計算量，同樣以上述第三層的Inception結構為例，我們計算參數量： $\times 1 \times 192 \times 64+(1 \times 1 \times 192 \times 96+3 \times 3 \times 96 \times 128)+(1 \times 1 \times 192 \times 16+5 \times 5 \times 16 \times 32)$
如果去掉網絡中的 $\times 1$ 的模塊，參數量如下： $\times 1 \times 192 \times 64+3 \times 3 \times 192 \times 128+5 \times 5 \times 192 \times 32$ 由此可見，如果去掉網絡中的 $\times 1$ 模塊，參數量將增加到原來網絡的三倍

3.2.3 輔助分類器

輔助分類器在訓練的過程中同樣會計算損失，在GoogLeNet論文中，輔助分類器的損失被乘以0.3后加到主分類器的損失中作為最終的損失來訓練網絡，主分類器的結果如下：

輔助分類器的結構如下：

結構的細節具體說來：

均值池化層核尺寸為5x5，步長為3；

1x1的卷積用于降維，擁有128個濾波器，采用ReLU激活函數；

全連接層有1024個神經元，采用ReLU激活函數；

dropout層的dropped的輸出比率為70%；

softmax激活函數用來分類，和主分類器一樣預測1000個類，但在推理時移除。

輔助分類器的作用的是一方面增加了反向傳播的梯度信號，幫助低層特征訓練，從而低層特征也有很好的區分能力，另一方面輔助分類器提供了額外的正則化效果，對于整個網絡的訓練很有裨益。

4. ResNet

ResNet是2015年由微軟實驗室提出的，網絡的亮點主要有：

超深的網絡結構（可以突破1000層）；

提出risidual模塊：

使用batch normalization加速訓練（丟棄dropout）；

4.1 網絡結構

網絡結構如下圖所示，其中ResNet為下圖中最上層的網絡

可以看到ResNet其實就是對residual模塊的反復堆疊，隨著網絡層數的增加，深層網絡中主要會出現如下兩個問題而導致網絡效果變差：

梯度消失或者梯度爆炸；

退化問題；
其中梯度消失或者梯度爆炸主要通過數據預處理、權重初始化以及batch normalization方法解決，而退化問題主要是通過本文提出的residual模塊解決，下面分別對這兩個關鍵知識點進行總結。

4.2 關鍵知識點

4.2.1 residual模塊

residual模塊主要解決了深層網絡出現的退化問題，退化問題具體表現就是層數深的網絡反而沒有層數淺的好，residual模塊結構如下圖所示：

其中，左側為34層網絡的residual模塊，右側為50、101、152層網絡的residual模塊，右側residual模塊的主要特點是增加 $1×11\times1$ 卷積核來進行升維和降維，減少網絡參數量，以不至于過深的網絡帶來巨大的參數量導致難以學習。另一個值得注意的點是這里的residual是通過add操作將特征合并，而不是通過concate操作，這里我們來說明下concate操作和add操作的區別：

add要求整個特征矩陣的長寬和深度都相同，而concate僅僅要求長寬相同，而深度可以不同，因此concate就是按照深度方向進行拼接的

add和concate操作是可以相互轉換的，如下圖所示：
由此可見，add其實可以相當于concate之后對應通道共享同一個卷積核，add相當于加了一種先驗，當兩路輸入可以具有“對應通道的特征圖語義類似”（可能不太嚴謹）的性質的時候，可以用add來替代concate，這樣更節省參數和計算量（concate是add的2倍）。

4.2.2 batch normalization

batch normalization是2015年的論文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出的，其目的是使得我們同一通道的feature map滿足均值為0，方差為1的分布規律，batch normalization的具體操作如下：假設小批量輸入為 $B={x1…m}\mathcal{B}=\left\{x_{1 \ldots m}\right\}$ ，學習的參數為 $γ,β\gamma, \beta$ ，那么操作主要有如下四個步驟：

求得小批量數據的均值：

μB←1m∑i=1mxi\mu_{\mathcal{B}} \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i}

求得小批量數據的方差：

σB2←1m∑i=1m(xi?μB)2\sigma_{\mathcal{B}}^{2} \leftarrow \frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2}

進行歸一化操作：

x^i←xi?μBσB2+?\widehat{x}_{i} \leftarrow \frac{x_{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}

進行尺度為位移變換：

yi←γx^i+β≡BNγ,β(xi)y_{i} \leftarrow \gamma \widehat{x}_{i}+\beta \equiv \mathrm{BN}_{\gamma, \beta}\left(x_{i}\right)

其中batch normalization的結果為 ${yi=BNγ,β(xi)}\left\{y_{i}=\mathrm{BN}_{\gamma, \beta}\left(x_{i}\right)\right\}$ 具體操作可以如下圖所示：
這里值得注意的是:

γ,β\gamma, \beta

兩個參數是在訓練過程中學習得到的，作用是抵消由于Batch Normalization將特征歸一化0-1后記過函數曲線變線性的問題，相當于是回復出原始所學到的特征；

在訓練過程中，batch size要盡可能設置得大一些，這樣batch normalization層才更加容易學到數據分布規律；

batch normalization層通常放在卷積層和激活層之間，且卷積層不需要設置bias，因此有batch normalization層的話卷積層有無bias的結果是一致的。

訓練過程中，均值和方差分別是由該批次內數據相應維度的均值與方差獲得的，推理過程，均值和方差是基于所有批次的數據計算所得，也就是說數據的均值和方差在訓練過程中會被記錄下來并不斷更新。

5. ResNeXt

ResNeXt是ResNet與Inception的結合體，利用分組卷積的形式在沒有增加參數數量的前提下降低了錯誤率，網絡的性能對比如下圖所示，在和ResNet和Inception的對比中都取得更好的結果：

5.1 網絡結構

其網絡結構與ResNet類似，都是通過模塊堆疊而成，唯一的區別是堆疊的模塊不同，如下圖所示：

注意到，在參數數量接近的前提下，ResNeXt中的residual模塊的通道數要比ResNet多，網絡的表達能力相應更強。上表中中ResNeXt中的參數 $C$ 指的的是Group Convolution中的Group數，參數 $d$ 指的是每個Group卷積的卷積核的個數，這兩個參數對精度的影響如下圖所示：

5.2 關鍵知識點

5.2.1 分組卷積

ResNeXt中堆疊的模塊本質就是就是采用分組卷積的residual模塊，因此首先我們來了解下分組卷積，如下圖所示為標準卷積操作：

對應卷積層的參數數量為： $(h1×w1×c1)×c2\left({h}_{1} \times {w}_{1} \times {c}_{1}\right) \times {c}_{2}$ 而分組卷積操作圖示如下，將輸入按照通道分組后進行卷積后在進行Concate操作：

對應的卷積層參數數量為： $h1×w1×(c1g)×(c2g)×g=h1×w1×c1×c2×1gh_{1} \times w_{1} \times\left(\frac{c_{1}}{g}\right) \times\left(\frac{c_{2}}{g}\right) \times g={h}_{1} \times {w}_{1} \times c_{1} \times c_{2} \times \frac{{1}}{{g}}$ 因此，分組卷積的數量是標準卷積的 $1g\frac{{1}}{{g}}$

ResNeXt論文中首先提出的是上圖中(a)的形式，通過一系列等價變換，最終可以得到如圖(c )所示分組卷積的形式

6. MobileNet

MobileNet目前一共有三個版本，分別是MoblileNet V1, MobileNet V2和MOblieNet V3:
MobileNet V1網絡是2017年google團隊在2017年提出的，在準確率小幅度降低的前提下大大減少模型參數和運算量（相比VGGG16準確率減少了0.9%，但是模型參數只有VGG的1/32），網絡的主要亮點有：

采用Depthwise Separable Convolution（可分卷積），大大減少了運算量和參數量；

增加了控制卷積核卷積個數的超參數

α\alpha

和輸入圖像大小的

β\beta

，用戶可以根據項目需求使用合適的超參數；

MobileNet V2網絡是2018年google團隊在2018年提出的，相比Mobile V1網絡準確率更高，模型更小，網絡的亮點主要有：

采用了Inverted Residual Block（倒殘差結構）；

采用了Linear Bottlenecks結構；

MoblieNet V3網絡在V2的基礎上進一步減少了計算量和提高了精度，網路的主要兩點如下：

采用了bneck結構，即進一步優化了Inverted Residual Block；

使用了Neural Architecture Search搜索參數；

重新設計了耗時層結構；

MobileNet V1和MobileNet V2在分類任務上的性能對比如下：

MobileNet V2和MobileNet V3的性能對比如下：

6.1 網絡結構

MobileNet V1的網絡結構與VGG類似，結構如下所示：

其中Conv dw指的就是Depthwise Separable Convolution，下文介紹
MobileNet V2的網路結構如下所示：

其中bottleneck指的就是Inverted Residual Block和Linear Bottleneck結構。其中 $t$ 是擴展因子，也就是Inverted Residual Block第一層 $1×11\times1$ 卷積核對特征矩陣Channel擴展的倍數， $c$ 是輸出特征矩陣Channel， $n$ 是bottleneck的重復次數， $s$ 是卷積核步距

MobileNet V3中結構如下，MobileNet V3的網路結構是通過NAS（Neual Architecture Search）搜索參數后得到網絡結構:

6.2 關鍵知識點

6.2.1 Depthwise Separable Convolution

Depthwise Separable Convolution即深度可分卷積，傳統卷積如下圖所示：

而Depthwise Separable Convolution由兩部分組成，分別是Depthwise Convolution和Pointwise Convolution，其中Depthwise Convolution操作如下圖所示：

在傳統卷積中，卷積核Channel等于輸入特征矩陣Channel，輸出特征矩陣Channel等于卷積核個數，而在Depthwise Convolutional中，卷積核Channel等于1，輸入特征矩陣Channel等于卷積核個數等于輸出特征卷積Channel，也就是一個卷積和負責一個Channel的特征矩陣。

Pointwise Convolution操作如下圖所示：
在Pointwise Convolution和普通卷積一樣，只是卷積核大小固定為 $1×11\times1$

假設輸入矩陣維度為 $DK×DK×MD_K \times D_K \times M$ ，卷積核大小為 $DF×DF×MD_F \times D_F \times M$ ，數量為 $N$ ，因此普通卷積計算量為 $DK?DK?M?N?DF?DˉFD_{K} \cdot D_{K} \cdot M \cdot N \cdot D_{F} \cdot \bar{D}_{F}$ 可分卷積計算量為： $DK?DK?M?DF?DF+M?N?DF?DFD_{K} \cdot D_{K} \cdot M \cdot D_{F} \cdot D_{F}+M \cdot N \cdot D_{F} \cdot D_{F}$ 因此理論上普通卷積計算量是可分卷積的8到9倍。在實驗過程中發現Depthwise Convolution參數大部分為零，參數大部分為零就意味著這部分卷積核是無效的，這是不合理的，在MobileNet V2網絡中對這個問題有所優化

6.2.2 Inverted Residuals Block 和 Linear Bottleneck（MobileNet V2）

在ResNet中提出了Residual Block模塊，如下圖所示：
在該“兩頭大中間小“的結構中，步驟如下：

\times 1

卷積降維；

\times 3

標準卷積；

\times 1

卷積升維；

而在Inverted Residual Block模塊的結構如下圖所示：

具體步驟如下：

\times 1

卷積升維

\times 3

Depthwise Separable Convolution

\times 1

卷積降維

在Inverted Residual Block中使用的Relu6激活函數： $y=ReLU?6(x)=min?(max?(x,0),6)y=\operatorname{ReLU} 6(x)=\min (\max (x, 0), 6)$ 此外，在Inverted Residual Block模塊中的最后一個卷積層使用的是線性激活函數，也就是Linear Bottleneck，論文中通過實驗發現Relu激活函數對低維度特征信息造成大量損失，而Inverted Residual Block中使是"中間大兩頭小"的結構，因此輸出是相對低維度的特征，因此需要使用線性激活函數來替代Relu函數來避免對低維度特征信息造成損失。具體結構如下：

當stride=1且輸入特征矩陣與輸出特征矩陣shape相同時才有shortcut連接，而并不是stride=1的Inverted Residual Block都會有shortcurt連接。

6.2.3 bneck（MobileNet V3）

在以上基礎上，MobileNet V3進一步優化了Block結構，如下圖所示：

添加了通道注意力機制：如上圖所示，在進行Depthwise Convolution之后對特征矩陣按照通道進行池化，獲得一個一維的向量，再在向量的基礎上連接兩個全連接層（第一層非線性激活函數為ReLU，第二層非線性激活函數為Hard-Sigmoid），輸出獲得向量相當于獲得了特征矩陣各個Channel之間的權重關系，最終將該向量逐通道乘到原始的特征矩陣上。

更新了激活函數，其中Hard-Sigmoid函數公式如下：

Hard-Sigmoid=ReLU?6(x+3)6\text{Hard-Sigmoid}=\frac{\operatorname{ReLU} 6(x+3)}{6}

Hard-Sigmoid函數和Sigmoid函數是非常接近的，但是在計算求導過程中會變得更加簡單：

7. ShuffleNet

ShuffleNet有兩個版本，ShuffleNet V1網絡的特點主要如下：

提出了Channel Shuffle的思想；

ShuffleNet V1中采用的全是Group Convolution和Depthwise Separable Convolution。

ShuffleNet和MobileNet類似也是一個非常輕量級的網絡，其性能對比如下，可以看在FLOPs接近的條件下，ShuffleNet的效果是要由于MoblieNet V1的：

ShuffleNet V2網絡中提出了四條高效網絡設計準則：

Equal Channel width minimizes memory access cost(MAC)；

Excessive group convolution increases MAC；

Network fragmentation reduces degree of parallelism;

Element-wise operations are non-negligible
并基于這四條準則重新優化了網絡結構，ShuffleNet V2相對硬核，有很多有意義的實驗。ShuffleNet V2的性能對比如下：

7.1 網絡結構

ShuffleNet V1的網絡結構如下：

ShuffleNet V2網絡結構如下圖所示：

從網絡結構看，仍然是模塊的堆疊，但是不同的是，ShuffleNetV1和V2使用不同的Block，具體的下文介紹。

7.2 關鍵知識點

7.2.1 Channel Shuffle思想

ResNeXt網絡中使用的Group Convolution雖然可以減少參數與計算量，但是Group Convolution中不同組之間的信息沒有交流，那么Channel Shuffle的基本思想就如下圖所示：
具體說來，就是將經過第一次Group Convolution之后的結果，將不同Group間的Channel混亂后再進行第二次Group Convolution，這樣就可以實現不同Group特征的融合。
在ShuffleNet V1中采用的全部都是Group Convolution和Depthwise Separable Convolution，如下圖所示：

上圖中(a)是ResNeXt中的殘差結構將卷積層更換為Dpethwise Convolution后的示意圖，原始的ResNeXt計算量為： $\times 1 \times c \times m)+h w(3 \times 3 \times m \times m) / g+h w(1 \times 1 \times m \times c)=h w\left(2 c m+9 m^{2} / g\right)$ 其中93.4%的計算量都由 $1×11\times1$ 的卷積占據。而圖(b)和圖(c )分別是stride=1和stride=2的ShuffleNet V1中的結構，我們計算圖(b)的計算量為： $\times 1 \times c \times m) / g+h w(3 \times 3 \times m)+h w(1 \times 1 \times m \times c) / g=h w(2 c m / g+9 m)$ 由此可見ShuffleNet中計算量會小很多。ShuffleNet V2中對結構進一步進行了優化，具體見下文。

7.2.2 設計高效網絡準則

在ShuffleNet v2中作者提出計算復雜度不能只看FLOPs，一方面需要看Memory Access Cost，我們計算FLOPs通常值計算Convolution操作，但是在ShuffleNet V1中Convolution 操作在GPU上指占用了50%的時間，而Shuffle、Elemwise等操作占用了另外50%時間。另外一方面還需要看模型的Degree of Parallelism。

Equal channel width minimizes memory access cost
也就是說，在卷積和FLOPs不變的前提下，當卷積層的輸入特征矩陣與輸出特征矩陣Channel相等就能獲得最小的Memory Access Cost，作者的實驗如下：

作者簡單堆疊一系列相同的卷積層，其中

c_i

和

c_2

分別為各個卷積的輸入輸出特征大小，我們可以看到，當

c_i

和

c_2

比例越懸殊，網絡推理速度越慢。

Excessive group convolution increase MAC
意思是，當FLOPs保持不變，GConv的groups增大時，Memory Access Cost也會增大。這一部分實驗結果如下：

Network fragmentation reduces degree of parallelism
指的是，網絡設計的碎片化程度越高，速度越慢，雖然這種設計通常可以增加模型的精度。實驗結果如下：
其中各種frament如下圖所示：

可以看到4-fragment-parallel的情況速度最慢

Element-wise operations are non-negligible
大概意思是，Element-wise操作帶來影響是不可忽視的，Element-wise操作包括ReLU、AddTensor、AddBias等操作，這一部分實驗如下所示：
通過對比我們可以axin ,不加入ReLU和short-cut操作速度最快。
綜上所示，ShuffleNet V2 Block結構如下:

其中(a)(b)為ShuffleNet V1中的結構，?(d)對應(a)(b)優化后的結構，從圖中看，主要是使用Channel Spilt以及Concate代替了原來 Add操作，取消了GConv，取消了Add后的ReLU操作，將Channel Shuffle移動了Concate操作后等等。

8. EfficientNet

EfficientNet V1是google在2019年發表的文章，該文章提出EfficientNet-B7在Imagenet top-1達到當前最高準確率84.3%，相對于準確率最高的GPipex相比，參數數量僅為1/8.4，推理速度提升了6.1倍。如下圖所示：

文章同時探討了輸入分辨率，網路深度和寬度的影響：

增加網絡的深度，能夠得到更加豐富、復雜的特征并且能夠很好的應用到其他任務中，但網絡的深度過深會面臨梯度消失，訓練困難的問題。

增加網絡的寬度，能夠過得更高細粒度的特征并且也更容易訓練，但對于width很大而深度較淺的網絡往往很難學習到更加深層次的特征。

增加輸入網絡的圖像分辨率能夠獲得更高細粒度的特征模板，但對于非常高的輸入分辨，準確率增加的收益會減小，并且大分辨率圖像會增加計算量。如下圖所示：

從上圖可以看出，單獨增加網絡的輸入分辨率、網絡的深度和寬度在準確率達到80%左右后就基本達到飽和，而同時增加三者則可以突破這個飽和。

EfficientNet V2是發表于2021年CVPR上的論文，論文性能對比如下：

文章針對EfficientNet V1的問題提出了響應的解決方案：
4. 訓練圖像尺寸很大時，訓練速度非常慢，針對這個問題解決方案就是降低訓練圖像的尺寸，使用更大的batch_size;
5. 在網絡淺層中使用Depthwise convolution速度會非常慢，無法充分利用現有的一些加速器，因此EfficientNet V2中引入了Fused-MBConv結構；
6. 同等放大每個Stage是次優的，在EfficientNet V1中，每個Stage的深度和寬度都是同等放大的，但是每個Stage對網絡的訓練速度以及參數數量并不相同，所以直接使用同等縮放策略并不合理，因此在V2中采用了非均勻的縮放策略來縮放模型；

8.1 網絡結構

EfficientNet V1網絡結構是通過網絡搜索技術得到的，具體網絡結構如下表所示：

EfficientNet V2網絡結構如下圖所示：

與Efficient V1的不同點主要在于

處理使用MBConv模塊，還使用了Fused-MBConv模塊；

會使用較小的Expansion Ratio；

偏向使用更小的Kernel Size（

3×33\times3

）；

移除了Efficient V1中最后一個步距為1的Stage；

8.2 關鍵知識點

8.2.1 MBConv

MBConv模塊結構如下圖所示：

第一個升維的

1×11\times1

卷積層，它的卷積核的個數是輸入特征矩陣Channel的

n

倍，后面緊接著一個BN層和一個Swish激活函數，通過Depthwise Convolution和注意力轉移機制模塊，后一個

1×11\times1

卷積層則起到降維的作用；僅當MBConv結構的特征矩陣與輸出的特征矩陣Shape相同時才存在；

Swish非線性激活函數在MobileNet V3中也有使用到，不過MobileNet V3中使用的是Hard-Swish非線性激活函數，Swish非線性激活函數其計算公式為：

swish?x=x?σ(x)\operatorname{swish} x=x \cdot \sigma(x)

σ(x)=11+e?x\sigma(x)=\frac{1}{1+e^{-x}}

該非線性激活函數是谷歌大腦團隊提出的，可以用來代替ReLU函數并取得更好的效果。

圖中注意力轉移機制模塊如下圖所示：

該模塊的設計和MobileNet V3中的SE模塊基本一致，由一個平均池化層和兩個全連接層組成，第一個全連接層節點個數為輸入MBConv特征矩陣Channel的1/4，并且使用Swish激活函數，第二個全連接層節點個數和等于Depthwise Convlution輸出特征矩陣Channels，并且使用Sigmoid激活函數；

在EfficientNet V2中發現在網絡淺層中使用Depthwise Convolution速度會變慢，因此作者提出了Fused-MBConv模塊，如下圖所示，也就是講Depthwise卷積和升維的 $1×11\times1$ 的卷積合成一個 $3×33\times3$ 的卷積：

Fused-MBConv具體實現如下如下圖所示（在Fused-MBConv的具體實現中是沒有SE模塊的）：

作者還完成了一系列對比實驗，并不是所有層都使用Fused-MBConv效果最好，而是Stage1-3使用能達到最佳的效果，此外，這里的Dropout層和我們通常理解的神經元的隨機失活是不一樣的，而是來自一篇論文《Deep Networks with Stochastic Depth》的方法，如下圖所示，是通過隨機失活神經元使得網絡獲得隨機的深度。

8.2.2 Processive Learning漸進學習策略

Processive Learning漸進學習策略其實很簡單，在訓練早期使用較小的訓練尺寸以及較弱的正則方法weak regularizatin，這樣網路能夠快速學習到一些簡單的表達能力。接著逐漸提升圖像尺寸同時增強正則方法adding stronger regularization。這里所說regularization包括Dropout，RandAugment以及Mixup。
具體算法如下圖所示：

以及采用漸進式學習策略帶來的收益，不僅可以縮短訓練時間，甚至在準確度上也能有所提高：

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的计算机视觉算法——图像分类网络总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：图像降噪算法——低秩聚类：WNNM算法
下一篇：计算机视觉算法——目标检测网络总结

编程问答

计算机视觉算法——图像分类网络总结

計算機視覺算法——圖像分類網絡總結

計算機視覺算法——圖像分類網絡總結

1. AlexNet

1.1 網絡結構

1.2 關鍵知識點

1.2.1 卷積和池化特征尺寸計算公式

1.2.2 ReLU非線性激活函數

1.2.3 防止過擬合

2. VGG

2.1 網絡結果

2.2 關鍵知識點

2.2.1 感受野的計算以及大小卷積核

3. GoogLeNet

3.1 網絡結構

3.2 關鍵知識點

3.2.1 Inception結構

3.2.2 1×11 \times 11×1卷積作用

3.2.3 輔助分類器

4. ResNet

4.1 網絡結構

4.2 關鍵知識點

4.2.1 residual模塊

4.2.2 batch normalization

5. ResNeXt

5.1 網絡結構

5.2 關鍵知識點

5.2.1 分組卷積

6. MobileNet

6.1 網絡結構

6.2 關鍵知識點

6.2.1 Depthwise Separable Convolution

6.2.2 Inverted Residuals Block 和 Linear Bottleneck（MobileNet V2）

6.2.3 bneck（MobileNet V3）

7. ShuffleNet

7.1 網絡結構

7.2 關鍵知識點

7.2.1 Channel Shuffle思想

7.2.2 設計高效網絡準則

8. EfficientNet

8.1 網絡結構

8.2 關鍵知識點

8.2.1 MBConv

8.2.2 Processive Learning漸進學習策略

總結

3.2.2 $\times 1$ 卷積作用