當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cnn stride and padding_彻底搞懂CNN中的卷积和反卷积

發布時間：2025/3/15 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 cnn stride and padding_彻底搞懂CNN中的卷积和反卷积小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

卷積和反卷積在CNN中經常被用到，想要徹底搞懂并不是那么容易。本文主要分三個部分來講解卷積和反卷積，分別包括概念、工作過程、代碼示例，其中代碼實踐部分主結合TensorFlow框架來進行實踐。給大家介紹一個卷積過程的可視化工具，這個項目是github上面的一個開源項目。

卷積可視化github地址：https://github.com/vdumoulin/conv_arithmetic

卷積和反卷積

卷積(Convolutional)：卷積在圖像處理領域被廣泛的應用，像濾波、邊緣檢測、圖片銳化等，都是通過不同的卷積核來實現的。在卷積神經網絡中通過卷積操作可以提取圖片中的特征，低層的卷積層可以提取到圖片的一些邊緣、線條、角等特征，高層的卷積能夠從低層的卷積層中學到更復雜的特征，從而實現到圖片的分類和識別。

反卷積：反卷積也被稱為轉置卷積，反卷積其實就是卷積的逆過程。大家可能對于反卷積的認識有一個誤區，以為通過反卷積就可以獲取到經過卷積之前的圖片，實際上通過反卷積操作并不能還原出卷積之前的圖片，只能還原出卷積之前圖片的尺寸。那么到底反卷積有什么作用呢？通過反卷積可以用來可視化卷積的過程，反卷積在GAN等領域中有著大量的應用。

工作過程

卷積

無padding無stride的卷積

上圖展示了一個卷積的過程，其中藍色的圖片(4*4)表示的是進行卷積的圖片，陰影的圖片(3*3)表示的是卷積核，綠色的圖片(2*2)表示是進行卷積計算之后的圖片。在卷積操作中有幾個比較重要的參數，輸入圖片的尺寸、步長、卷積核的大小、輸出圖片的尺寸、填充大小。

下面用一個圖來詳細介紹這些參數：

輸入圖片的尺寸：上圖中的藍色圖片(5*5)，表示的是需要進行卷積操作的圖片，在后面的公式中有i來表示輸入圖片的尺寸。

卷積核的大小：上圖中的會移動陰影圖片表示的是卷積核(4*4)，通過不同參數不同大小的卷積核可以提取到圖片的不同特征，后面用k表示卷積核的尺寸。

步長：是指卷積核移動的長度，通過上圖可以發現卷積核水平方向移動的步長和垂直方向移動的步長是一樣的都是1，后面用s表示步長。

填充大小：是指在輸入圖片周圍填充的圈數，通常都是用0來進行填充的，上圖中藍色圖片周圍兩圈虛線的矩形表示的是填充的值，所以padding是2，后面用p來表示填充大小。

輸出圖片的尺寸：經過卷積操作之后獲取到的圖片的大小，上圖的綠色圖片(6*6)，后面用o來表示。

如果已知i、k、p、s，可以求得o，計算公式如下：

反卷積

無stride的反卷積

上圖展示一個反卷積的工作過程，乍看一下好像反卷積和卷積的工作過程差不多，主要的區別在于反卷積輸出圖片的尺寸會大于輸入圖片的尺寸，通過增加padding來實現這一操作，上圖展示的是一個strides(步長)為1的反卷積。下面看一個strides不為1的反卷積

上圖中的反卷積的stride為2，通過間隔插入padding來實現的。同樣，可以根據反卷積的o、s、k、p參數來計算反卷積的輸出i，也就是卷積的輸入。公式如下：i=(o?1)?s+k?2?p，其實就是根據上式推導出來的。

代碼示例

為了便于大家理解卷積和反卷積工作過程，將會使用圖示的方式來展示卷積和反卷積的工作過程，并利用tensorflow的卷積和反卷積函數來進行驗證。

卷積

使用tensorflow來實現卷積的時候，主要利用tf.nn.conv2d函數來實現的，先介紹一下函數的參數

功能說明：通過4維的input和filter來計算2維卷積

input：4維的tensor，需要進行卷積的矩陣
filter：4維的tensor，卷積核的參數，需要和input具有相同的數據類型，[filter_height，filter_width，in_channels，out_channels]，其中filter_height表示卷積核的高，filter_width表示卷積核的寬，in_channels表示需要進行卷積圖片的通道數，out_channels卷積之后輸出的通道數
strides：int類型的列表，設置卷積核滑動的步長
padding：填充類型有"SAME"和"VALID"兩種模式，當步長為1時，padding為"SAME"可以保持輸出與輸入的尺寸具有相同的大小。
use_cudnn_on_gpu：使用cudnn來加速卷積，默認是True
data_format：輸入數據的格式，有"NHWC"和"NCHW"兩種模式，默認使用的是"NHWC"，表示[batch，height，width，channels]，"NCHW"數據格式[batch，channels，height，width]
dilations：一維的list，默認是[1,1,1,1]，用來設置卷積核的擴展
name：操作的名稱

TensorFlow提供的卷積函數padding只有"SAME"和"VALID"兩種模式，所以輸出矩陣的尺寸大小與之前的公式有所不同，下面介紹這兩種模式下輸出矩陣尺寸的計算公式：

padding為SAME時：ceil(i/s)，其中i表示輸入矩陣的大小，s表示卷積核的步長，ceil函數表示向上取整。下圖展示是一個padding為SAME的卷積，卷積開始的時候保證卷積核的中心位于輸入矩陣角的頂點位置。

padding為VALID時：ceil((i?k+1)/s)，k表示卷積核的尺寸。下圖展示的是一個padding為VALID的卷積過程，卷積核始終都是位于輸入矩陣內進行移動。

下面看一個卷積的計算例子

將卷積核與輸入矩陣對應的位置進行乘加計算即可，對于多維輸入矩陣和多維卷積核的卷積計算，將卷積后的結果進行堆疊，作為最終卷積的輸出結果。

反卷積

tensorflow提供了tf.nn.conv2d_transpose函數來計算反卷積

功能說明：計算反卷積(轉置卷積)

value：4維的tensor，float類型，需要進行反卷積的矩陣
filter：卷積核，參數格式[height，width，output_channels，in_channels]，這里需要注意output_channels和in_channels的順序
output_shape：一維的Tensor，設置反卷積輸出矩陣的shape
strides：反卷積的步長
padding："SAME"和"VALID"兩種模式
data_format：和之前卷積參數一樣
name：操作的名稱

需要注意的是，通過反卷積并不能還原卷積之前的矩陣，只能從大小上進行還原，反卷積的本質還是卷積，只是在進行卷積之前，會進行一個自動的padding補0，從而使得輸出的矩陣與指定輸出矩陣的shape相同。框架本身，會根據你設定的反卷積值來計算輸入矩陣的尺寸，如果shape不符合，則會報錯。

錯誤提示：InvalidArgumentError (see above for traceback): Conv2DSlowBackpropInput，這時候需要檢查反卷積的參數與輸入矩陣之間的shape是否符合。計算規則可以根據padding為SAME還是VALID來計算輸入和輸出矩陣的shape是否相符合。如上例中，根據反卷積的參數來計算輸入矩陣的shape：因為padding是VALID模式，所以我們套用ceil((i?k+1)/s)=ceil((4?3+1)/1)=2，而輸入矩陣x1的shape剛好是2*2，所以符合。

上面介紹的反卷積的stride是1，接下來看一個stride不為1的例子

需要注意的是，在進行反卷積的時候設置的stride并不是指反卷積在進行卷積時候卷積核的移動步長，而是被卷積矩陣填充的padding，仔細觀察紅色框內可以發現之前輸入矩陣之間有一行和一列0的填充.

最近開通了微信公眾號，在微信公眾號上，分享了一些資料，搜索"Python機器學習之路"關注我即可獲取，有什么問題歡迎咨詢，大家一起學習相互提高。

總結

以上是生活随笔為你收集整理的cnn stride and padding_彻底搞懂CNN中的卷积和反卷积的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： nvarchar转换为numeric时出
下一篇： Fibonacc