【图像超分辨率】MSAN:Scene-Adaptive RS Img SR a Multiscale Attention
MSAN:Scene-Adaptive Remote Sensing Image Super-Resolution Using a Multiscale Attention Network
- 摘要
- I 介紹
- III. 方法
- A. 用于遙感圖像超分辨率的MSAN模型的結構
- B. 多尺度激活特征融合塊(MAFB)
- 1) 多尺度激活模塊。
- 2) 注意模塊。
- C. 場景適應性框架描述
- 1) 轉移學習
- 2)重構
摘要
遙感圖像超分辨率一直是研究的重點,近年來提出了許多基于深度學習的算法。然而,由于遙感圖像的結構往往比自然圖像的結構更加復雜,因此遙感圖像的超分辨率仍然存在一些困難。首先,很難用同一個模型來描述不同場景的高分辨率(HR)和低分辨率(LR)圖像之間的非線性映射。其次,遙感圖像中地面物體的尺度范圍很廣,單尺度卷積很難有效提取各種尺度的特征。為了解決上述問題,我們提出了一個多尺度注意網絡(MSAN)來提取遙感圖像的多層次特征。MSAN的基本組成部分是多尺度激活特征融合塊(MAFB)。此外,還采用了遙感圖像的場景適應性超分辨率策略來更準確地描述不同場景的結構特征。在幾個數據集上進行的實驗證實,所提出的算法在評價指標和視覺結果上都優于其他最先進的算法。
I 介紹
與自然圖像相比,遙感圖像的結構更為復雜。首先,遙感圖像通常具有更大的圖像寬度,并包含各種不同的場景,如建筑物、農田、森林和機場。一幅完整的遙感圖像可以由許多不同的場景組成,而這些場景的紋理和結構信息又有很大不同,導致不同場景的HR和LR圖像之間的映射關系不一致。其次,遙感圖像中的地面物體的尺度差別很大。例如,飛機和車輛等物體在遙感圖像中只占幾個像素,這與自然圖像有很大不同。因此,用同一個超分辨率模型很難準確地重建不同場景的圖像,而且單尺度卷積不能很好地提取不同尺度的特征。
目前,許多基于深度學習的遙感圖像超分辨率框架已經被開發出來[25]-[27]。雖然這些方法可以達到令人滿意的效果,但在某種程度上,它們往往忽略了遙感圖像的結構信息[28],而且沒有考慮不同場景下的潛在視覺信息性。因此,為了從海量遙感圖像中提取更多有用的知識,需要開發一種更適合于遙感圖像的方法,并能利用遙感圖像中不同場景之間的結構信息。在這篇文章中,我們提出了一個新的框架,用不同類別場景的遙感圖像訓練一個深度神經網絡,以獲得不同的超分辨率模型,以適應各種場景的遙感圖像。還提出了一個多尺度注意網絡(MSAN),以表征遙感圖像的多層次結構特征。在這篇文章中,我們首次提出了一個多尺度激活模塊,然后在后面增加了一個通道注意模塊。我們的工作貢獻可以總結為三個方面。
多尺度激活特征融合塊(MAFB)。我們開發了一個新的MAFB作為MSAN的基本組成部分。受文獻[29]中寬幅激活策略的啟發,在本文中,我們首先提出了一個多尺度激活模塊,在整流線性單元(ReLU)激活層之前擴大特征圖的數量,在每個MAFB中同時提取多層次的特征。 在融合了不同尺度的特征圖后,后面又增加了一個通道注意模塊,以進一步自適應地利用多個尺度的特征中的有效信息。
場景自適應策略。我們建立了一個超級分辨率模型數據庫,通過遷移學習適應遙感圖像的不同場景;針對航空圖像數據集(AID)30]數據集中包含的30個不同場景的遙感圖像,共訓練了30個網絡模型,該數據集主要用于航空場景分類任務。因此,在這個模型數據庫的基礎上,經過場景匹配,可以對遙感圖像進行場景適應性重建。
我們通過對比實驗分析了遙感圖像中不同場景之間的不相似性。此外,在AID數據集和其他遙感圖像數據集(包括吉林一號衛星圖像和馬薩諸塞州道路和建筑檢測數據集)上獲得的實驗結果都證實了所提方法的滿意表現。
本文的其余部分組織如下。第二節介紹了現有的SISR方法。第三節描述了擬議的MSAN的框架和模型的細節。第四節給出了用AID數據集、吉林一號衛星圖像和馬薩諸塞州道路和建筑檢測數據集得到的模擬實驗結果,以及討論。最后,我們在第五節中提出了這項工作的結論。
III. 方法
如第一節所述,由于遙感圖像結構復雜,遙感圖像超分辨率存在兩個主要困難。
首先,對于遙感圖像中多樣化的場景對象,其高頻信息的聯合分布模式差異很大,因此,不同場景之間的高低映射關系往往不一致,這樣就很難用同一模型重建不同場景的遙感圖像。
其次,由于遙感圖像中的目標往往具有很寬的尺度,應考慮到圖像的局部紋理信息和全局特征分布。因此,與自然圖像相比,學習多層次的特征并執行特征表達具有重要意義。
為了解決上述問題,在WDSR架構的基礎上,我們首先對其進行了優化,提出了一個新的多尺度激活特征融合RB,稱為MAFB。在每個MAFB中,我們將一個多尺度激活模塊和一個通道關注模塊結合在一起。然后,開發了一個用于遙感圖像超分辨率的場景適應性框架。在這一部分,我們將詳細描述所提出的MSAN模型和場景自適應策略。
A. 用于遙感圖像超分辨率的MSAN模型的結構
如圖1所示,包括完整的網絡結構和新的RB MAFB,分別如圖1(a)和(b)所示。MSAN的整體結構由兩部分組成。1) the identity mapping 和 2) the residual body。對于the identity mapping分支,我們利用原始的5×5的卷積層來提取LR特征,并保留上采樣層與WDSR的subpixel卷積。
在本文中,我們旨在從LR輸入中恢復超分辨率遙感圖像,如下所示。
其中F是端到端網絡學習的映射,I LR∈RH×W×c代表LR輸入,I SR∈Rs H×sW×c代表SR輸出,s是比例因子。假設在剩余分支中有N個MAFB,第一個和第i個(i∈[1,N])塊的輸入可以定義為
其中ω和b分別代表濾波器和偏置,下標代表核大小,δ代表每個MAFB的函數。ω3×3的大小為c×3×3×n,其中c=3代表輸入LR圖像的RGB通道,n是輸出特征圖的數量。
B. 多尺度激活特征融合塊(MAFB)
MAFB是在多尺度激活模塊、特征融合瓶頸層和通道關注模塊的基礎上發展起來的,如圖1(b)所示。
1) 多尺度激活模塊。
由于WDSR已經證明,在ReLU激活前擴展特征圖有助于提高網絡的性能,因此,在本文中,我們首先提出多尺度激活模塊。我們通過在每個MAFB的ReLU激活前增加一個多尺度卷積模塊,將寬泛的激活策略擴展到多尺度激活,以擴大不同尺度的特征圖數量,同時提取不同場景在多個尺度上的類間分集,如圖1(b)所示。多尺度卷積濾波器的核大小分別為3×3、5×5和7×7。多尺度卷積模塊有能力在不同層次上描述輸入LR圖像的背景和紋理信息,并能提高網絡的表示能力。
由于多尺度卷積操作具有不同大小的感受野,在通過幾個RB后可以處理長期的依賴關系。此外,通過三種核大小的組合,可以獲得多層次的特征和更大的感受野,從而可以同時捕捉到遙感圖像中不同場景的局部和全局分布的聯合信息。我們的MAFB中的多尺度卷積模塊可以表述為
我們將三個卷積的輸出特征圖串聯起來,然后應用ReLU函數
其中σ (-) 表示非線性激活函數,M∈RH×W×3n。如果我們假設三個convo lution操作各輸出n個特征圖,那么在ReLU激活后我們可以得到3×n個特征圖。隨后,再進行1×1卷積,將之前提取的多尺度特征進行融合。同時,它仍然作為一個瓶頸層,將通道數減少到
其中M∈RH×W×n。
2) 注意模塊。
RCAN架構中的通道關注模塊如圖2所示。通道關注機制是由RCAN首次引入超分辨率領域的,事實證明它具有自適應利用不同通道間有效信息的能力。就遙感圖像而言,LR圖像中的高頻分量是很有價值的,特別是對于那些充滿邊緣、紋理和其他細節的場景。為了強化特征表達,使網絡關注更多的信息特征,我們在RB中加入了圖2所示的注意模塊,在1×1卷積后對通道特征進行重新劃分,具體操作如下。
其中Pave(M )∈R1×1×n代表全局平均池操作,W f 1∈R1×1×(n/r)和W f 2∈R1×1×n代表兩個全連接層,f (-)表示sigmoid函數。在重新校準操作之后,我們在RB的尾部使用3×3卷積進行空間上的特征提取。考慮到網絡的參數預算和計算負擔,特征圖的數量n被設定為64。
為了提高實驗效率,我們用8個RB作為基線,在提出的MSAN和兩個比較方法(即EDSR和WDSR)中。此外,利用權重歸一化(WN)來提高訓練的效率和準確性。地面真實圖像和超分辨率圖像之間的l1損失函數也被計算出來以訓練最終的MSAN。
C. 場景適應性框架描述
考慮到遙感圖像中不同場景之間的巨大差異,很難訓練一個對所有不同場景都有效的模型。因此,在這篇文章中,我們提出了一個場景適應性的超級分辨率框架。該框架的流程圖如圖3所示。如圖3所示,場景自適應超級分辨率的流程圖可以分為兩個部分:1)轉移學習和2)重建。
1) 轉移學習
首先,我們用包含各種場景的遙感圖像對基本網絡進行預訓練以初始化參數。然而,由于不同場景之間紋理信息的明顯差異和遙感圖像之間的廣泛尺度,初始化的模型往往是不同場景的訓練數據之間博弈的妥協結果。因此,這種預訓練的模型不會對每個單一場景實現最佳的重建結果。為此,為了使初始化的參數能夠轉移到遙感圖像的相應場景領域,我們使用不同場景的遙感圖像來微調預訓練的基本網絡[50]。在得到預訓練的基本網絡后,利用不同場景的遙感圖像對預訓練的網絡進行微調,得到最終模型。因此,我們可以建立一個數據庫,其中包含適應不同場景的遙感圖像的超分辨率模型。同時,我們可以利用不同場景的結構信息來探索LR和HR圖像之間更精確的非線性映射,以改善重建結果。
2)重構
在重建部分,在獲得所有與不同場景微調的模型后,我們可以應用場景自適應的超級分辨率框架。首先,我們可以通過場景分類將遙感圖像與對應的類別相匹配。在場景匹配之后,每張遙感圖像被輸入到在第一個程序中自適應獲得的相應的超分辨率模型中,以獲得最終的HR輸出。
總結
以上是生活随笔為你收集整理的【图像超分辨率】MSAN:Scene-Adaptive RS Img SR a Multiscale Attention的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html5中section指的是什么意思
- 下一篇: Windows Apache(Apach