生活随笔
收集整理的這篇文章主要介紹了
论文笔记:FCN
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
原文:Fully Convolutional Networks for Semantic Segmentation
FCN
1、四個(gè)問題
要解決什么問題? 用了什么方法解決? - 提出了“全卷積神經(jīng)網(wǎng)絡(luò)”,可以接收任意尺寸的輸入,并給出對(duì)應(yīng)大小的輸出。
- 使用一些圖像分類模型(如:AlexNet、VGG、GoogLeNet)等做遷移學(xué)習(xí)。
- 使用skip architecture的結(jié)構(gòu),結(jié)合深層的較粗糙的信息和淺層的較精細(xì)的信息,得到更精確的結(jié)果。
- 使用反卷積做上采樣。
效果如何? - 在PASCAL VOC 2012、NYUD v2、 SIFT Flow等數(shù)據(jù)集上取得了當(dāng)時(shí)(2015年)領(lǐng)先的效果。并且在PASCAL VOC 2012上取得了62.2%的mean IU,比之前的最優(yōu)方法提高了20%。
- 文中的FCN網(wǎng)絡(luò)對(duì)每張圖片處理耗時(shí)為0.2s。
還存在什么問題? - FCN是深度學(xué)習(xí)用于語義分割任務(wù)的開山之作,現(xiàn)在來說效果不能算很好。
2、論文概述
2.1、幾個(gè)知識(shí)點(diǎn)總結(jié)
語義分割:我的理解是,像素級(jí)別的分類,判斷每個(gè)像素屬于哪個(gè)類(即語義)。end-to-end:端到端。很好理解,一個(gè)端到端網(wǎng)絡(luò)的輸入是你的原始數(shù)據(jù),輸出就是你想要的預(yù)測(cè)結(jié)果。中間過程不需要對(duì)數(shù)據(jù)另外做處理。deconvolution: 有的地方翻譯成“反卷積”,有的地方翻譯成“轉(zhuǎn)置卷積”(見如何理解深度學(xué)習(xí)中的deconvolution networks?)。直觀上來說,我覺得“反卷積”更合適;不過從數(shù)學(xué)形式上來說“轉(zhuǎn)置卷積”更貼切。怎么叫的順口就怎么叫吧。特征圖進(jìn)過普通的卷積層后,輸出的特征圖尺寸通常都會(huì)縮小,相當(dāng)于一個(gè)下采樣的過程;而反卷積就是與卷積相反的過程,會(huì)讓輸出的尺寸增大,相當(dāng)于一個(gè)上采樣的過程。這篇文章中有可視化的例子,有助于理解。論文中解釋是:卷積(convolution)的forward、backward過程相互對(duì)調(diào),就是反卷積(deconvolution)。
2.2、FCN結(jié)構(gòu)
2.2.1、將分類用于dense prediction
- 作者指出,全連接層可以修正維度并會(huì)丟棄空間坐標(biāo)關(guān)系。然而這些全連接層本身也可以看做是覆蓋了整個(gè)feature map的卷積核組成的卷積層。
- 使用卷積層替代全連接層。實(shí)質(zhì)上全連接層也可以看做1?11 * 11?1的卷積。
- 以圖中的網(wǎng)絡(luò)為例:
- 普通的全連接層:假設(shè)最后倒數(shù)第二個(gè)卷積層的feature map為7?7?2567 * 7 * 2567?7?256,我們令最后一個(gè)卷積層的卷積核尺寸為7?7?256?40967 * 7 * 256 * 40967?7?256?4096,得到的結(jié)果是1?1?40961 * 1 * 40961?1?4096。將結(jié)果flatten,展開成1維的向量,隨后接全連接操作。
- 使用1?11 * 11?1卷積替代全連接:與前面一樣,倒數(shù)第二個(gè)卷積層的feature map為7?7?2567 * 7 * 2567?7?256,最后一個(gè)卷積層的卷積核尺寸為7?7?256?40967 * 7 * 256 * 40967?7?256?4096,得到的結(jié)果是1?1?40961 * 1 * 40961?1?4096。下面接上1?11 * 11?1卷積,卷積核為1?1?4096?40961 * 1 * 4096 * 40961?1?4096?4096,其實(shí)還是等價(jià)于全連接。
- 1?11*11?1卷積操作取代全連接,其實(shí)就是對(duì)將卷積核上同一點(diǎn)的所有channel進(jìn)行FC操作。
對(duì)示例圖的解釋: 上面的網(wǎng)絡(luò)是一個(gè)在ImageNet上預(yù)訓(xùn)練的CNN網(wǎng)絡(luò),輸入一個(gè)224?224224 * 224224?224的圖像,跑完全部的卷積層后輸出應(yīng)該正好是1?1?40961* 1 * 40961?1?4096,隨后flatten得到4096維的神經(jīng)元,之后再接上全連接層,輸出1000維的softmax。這里為止都是常規(guī)套路。將全連接替換成1?11 * 11?1卷積。上面的網(wǎng)絡(luò)中處理的圖片是下面的圖片中的一部分。那么推廣到處理下面這副同時(shí)有"貓狗"的圖像的情況下,可以看作從中取出了m?nm * nm?n個(gè)227?227227 * 227227?227的patch,分別送到FCN中,每個(gè)patch都會(huì)有一個(gè)1000維的輸出。那么這些patch的輸出拼在一起就可以構(gòu)成一個(gè)heatmap了。就以tabby cat這個(gè)例子來看,再對(duì)應(yīng)tabby cat的那個(gè)通道,只要patch里面包含了貓,那么輸出的概率應(yīng)該都會(huì)比較高,而其他patch則會(huì)較低,最后結(jié)果應(yīng)該會(huì)像圖中所示,有貓的區(qū)域在heatmap中的值明顯更大吧。) 我個(gè)人的看法是,直接將分類網(wǎng)絡(luò)的全連接層改為1?11 * 11?1卷積,從下圖中已經(jīng)可以在一定程度上進(jìn)行語義分割了(見heatmap),只要再進(jìn)行微調(diào)不難取得相對(duì)精確的效果。
2.2.2、基本結(jié)構(gòu)
- 假設(shè)使用的預(yù)訓(xùn)練網(wǎng)絡(luò)是VGG-16,整個(gè)FCN網(wǎng)絡(luò)中除了最后deconv的部分都與VGG一樣。
- 以圖中的網(wǎng)絡(luò)為例,FCN網(wǎng)絡(luò)的conv7輸出的heatmap,通過deconv進(jìn)行上采樣32倍得到第一個(gè)預(yù)測(cè)結(jié)果FCN-32s。
- 接著作者使用了skip layers將幾個(gè)pooling層輸出的結(jié)果結(jié)合起來:
- 先將pool4的輸出接上1?11 * 11?1卷積層,然后對(duì)conv7的輸出使用deconv進(jìn)行2倍上采樣,隨后兩個(gè)輸出相加。最后再接上stride為16的deconv層進(jìn)行16倍上采樣。得到第二個(gè)預(yù)測(cè)結(jié)果FCN-16s。
- 同理,將pool3的輸出接上1?11 * 11?1卷積與pool4以及conv7的輸出組合起來,最后可以得到第三個(gè)預(yù)測(cè)結(jié)果FCN-8s。
2.2.3、訓(xùn)練細(xì)節(jié)
在整個(gè)網(wǎng)絡(luò)上微調(diào),包括預(yù)訓(xùn)練模型(如VGG)的全部參數(shù)。作者實(shí)驗(yàn)結(jié)果表明,采樣多個(gè)patch進(jìn)行訓(xùn)練和直接使用原始圖片訓(xùn)練,發(fā)現(xiàn)基本上沒有太大差別,并且采樣patch還更費(fèi)時(shí)。所以,不進(jìn)行采樣,直接使用整幅圖片進(jìn)行訓(xùn)練。樣本均衡(class balancing),影響不大,不做處理。數(shù)據(jù)增強(qiáng),給訓(xùn)練數(shù)據(jù)加入鏡像和抖動(dòng),性能沒有太大提高。
2.2.4、度量指標(biāo)
2.3、其他
為了給數(shù)據(jù)引入深度信息,作者最先訓(xùn)練了一個(gè)4通道輸入(RGB-D)的網(wǎng)絡(luò)。發(fā)現(xiàn)效果并沒有好多少,可能是由于模型內(nèi)具有此類信息的梯度較難傳遞。后來,嘗試了對(duì)深度信息進(jìn)行三位HHA編碼,僅僅利用這部分的深度信息進(jìn)行訓(xùn)練一個(gè)網(wǎng)絡(luò)。另外使用RGB圖像數(shù)據(jù)訓(xùn)練一個(gè)網(wǎng)絡(luò),最后將這兩個(gè)網(wǎng)絡(luò)的結(jié)果進(jìn)行融合,效果有較大的提高。這個(gè)方法可能也可以用來處理RGB-D的一些其他任務(wù)。其他上采樣方法:關(guān)于FCN 論文中的 Shift-and-stitch 的詳盡解釋。
3、資料
譯文關(guān)于FCN 論文中的 Shift-and-stitch 的詳盡解釋https://zhuanlan.zhihu.com/p/35370022
總結(jié)
以上是生活随笔為你收集整理的论文笔记:FCN的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。