cnn输入层_多尺度CNN特征图的分析与应用
本文適用于那些參與CNN架構設計的工程師和研究人員,他們厭倦了盲目嘗試和錯誤,可以從CNN主干中選擇哪些特征圖以改善其模型的性能,而寧愿從早期開始設計過程的步驟,以使特征圖的空間比例輪廓與訓練數據集中的對象尺寸相匹配。
抽象
在這篇文章中,我們使用派生的數學框架,對卷積層的接收場(感受野)和多尺度卷積特征圖的特征進行了形式化處理。
使用發達的數學框架,我們在不同的卷積和合并操作下計算特征圖的接受場和空間比例。
我們展示了池化操作的重要性,以確保特征圖的空間比例作為層深度的函數呈指數增長。
此外,我們觀察到,沒有將池化操作嵌入到CNN中,特征圖空間比例只會隨著層深度的增加而線性增長。我們介紹空間尺度輪廓作為CNN的分層空間尺度表征,可用于評估特征圖與訓練數據集中的對象尺寸直方圖的兼容性。通過計算ResNet-50的空間比例輪廓來說明此用例。
另外,我們解釋了特征金字塔模塊如何生成富含增強語義表示的多尺度特征圖。最后,它顯示了雖然擴張的卷積濾波器保留了特征圖的空間尺寸,但與常規的卷積濾波器對應物相比,它們保持了更大的空間比例指數增長率。
閱讀此文,您將對最近提出的用于各種視覺任務的CNN架構中的多尺度卷積特征圖的用例背后的直覺有更深入的了解。以了解更多有關不同類型的圖層如何影響特征圖的空間比例和接受范圍的信息。
介紹
通常的假設和理解是,由CNN的早期卷積層生成的特征圖對基本語義表示(例如邊和角)進行編碼,而較深的卷積層在其輸出特征圖中對更復雜的語義表示(例如復雜的幾何形狀)進行編碼。CNN生成具有多個語義級別的特征圖的這種特性是其基于多層深度結構的分層表示學習能力的結果。具有不同語義級別的特征圖對于CNN至關重要,原因有以下兩個:
(1)復雜語義特征圖是在基本語義特征圖的基礎上構建的,它們是其構建基塊。
(2)許多視覺任務(例如實例和語義分段)都受益于基本語義特征圖和復雜語義特征圖。
基于視覺CNN的體系結構將圖像作為輸入,并將其通過幾個卷積層,以生成與輸入圖像相對應的語義表示。特別地,每個卷積層都輸出一個特征圖,其中該特征圖中的編碼語義范圍取決于該卷積層及其先前的卷積層的表示學習能力。并使其經過多個卷積層,以生成與輸入圖像相對應的語義表示。特別地,每個卷積層都輸出一個特征圖,其中該特征圖中的編碼語義范圍取決于該卷積層及其先前的卷積層的表示學習能力。并使其經過多個卷積層,以生成與輸入圖像相對應的語義表示。特別地,每個卷積層都輸出一個特征圖,其中該特征圖中的編碼語義范圍取決于該卷積層及其先前的卷積層的表示學習能力。
CNN特征圖具有空間差異
CNN特征圖的一個重要特征是它們是空間方差,這意味著CNN特征圖具有空間尺寸,并且由給定特征圖編碼的特征可能僅對特征圖的空間區域的子集有效。為了更好地了解CNN特征圖的空間方差屬性,首先,我們需要了解為什么由完全連接的圖層生成的特征圖不是空間方差。
全連接層生成的特征圖(您可以將給定的全連接層的神經元激活視為其輸出特征圖)不具有空間維度,因為全連接層的每個神經元都連接到圖的所有輸入單元。全連接層。因此,不可能為神經元激活輸出定義和考慮空間方面。
另一方面,CNN特征圖的每次激活僅連接到幾個輸入單元,它們彼此在空間上相鄰。
CNN特征圖的這種特性引起了它們的空間方差特性,并且是由卷積濾波器的空間局部結構及其空間受限的接收場引起的。
下圖顯示了完全連接的層和卷積層之間的差異,其中一個導致空間上的不變,另一個導致空間上的差異,其中下圖以綠色矩形表示輸入圖像,棕色矩形表示卷積特征圖。同樣,具有兩個輸出神經元的完全連接層由兩個藍色和灰色圓圈表示。如你看到的,
該圖說明了為什么由完全連接的圖層生成的特征不是空間方差,而卷積層生成空間方差特征圖的原因。綠色矩形表示輸入圖像,棕色矩形表示由CNN的卷積層生成的尺寸為5 x 7 x 1的特征圖。另一方面,兩個藍色和灰色圓圈表示具有兩個輸出神經元的完全連接層的激活輸出。
假設如果輸入圖像中有自行車,則完全連接層的藍色神經元(特征)將變為活動狀態,而如果輸入圖像中有汽車,則其灰色神經元(特征)將變為活動狀態。換句話說,藍色神經元是自行車特征,而灰色神經元是汽車特征。由于全連接層的性質,每個神經元的輸出都會受到所有輸入圖像像素的影響,因此,全連接層的生成特征無法即開即用地編碼任何定位信息,以告訴我們輸入圖像中的位置如果輸入圖像中有自行車。
另一方面,由卷積層生成的特征圖是空間方差,因此,除了對象的存在信息外,它們還對定位信息進行編碼。特別是,通過卷積層生成的尺寸為W x H x C的特征圖包含C個不同特征的存在信息(每個通道,特征圖的第三維,編碼一個唯一特征的存在信息),其中特征的空間尺寸W x H告訴我們在輸入圖像的哪個位置激活了特征。在此示例中,棕色卷積特征圖僅編碼一個特征,因為它只有一個通道(其第三維等于一個)。假設此棕色特征圖是自行車特征圖,則僅當輸入圖像中該條目的接受域中有自行車時,此特征圖的條目才會激活。換句話說,如果輸入圖像中有自行車,但在其特定的接收域中沒有自行車,則該條目不會變為活動狀態。卷積特征圖的這種特性使它們不僅可以對有關輸入圖像中對象存在的信息進行編碼,還可以對對象的定位信息進行編碼。該功能已激活。在此示例中,棕色卷積特征圖僅編碼一個特征,因為它只有一個通道(其第三維等于一個)。假設此棕色特征圖是自行車特征圖,則僅當輸入圖像中該條目的接受域中有自行車時,此特征圖的條目才會激活。換句話說,如果輸入圖像中有自行車,但在其特定的接收域中沒有自行車,則該條目不會變為活動狀態。
卷積特征圖的這種特性使它們不僅可以對有關輸入圖像中對象存在的信息進行編碼,而且可以對對象的定位信息進行編碼。
在此示例中,棕色卷積特征圖僅編碼一個特征,因為它只有一個通道。假設此棕色特征圖是自行車特征圖,則僅當輸入圖像中該條目的接受域中有自行車時,此特征圖的條目才會激活。換句話說,如果輸入圖像中有自行車,但在其特定的接收域中沒有自行車,則該條目不會變為活動狀態。卷積特征圖的這種特性使它們不僅可以對有關輸入圖像中對象存在的信息進行編碼,而且可以對對象的定位信息進行編碼。
總結
以上是生活随笔為你收集整理的cnn输入层_多尺度CNN特征图的分析与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python模块分类_Python-模块
- 下一篇: zset中的score_Redis 在项