场景分割:MIT Scene Parsing 与DilatedNet 扩展卷积网络
MIT Scene Parsing Benchmark簡介
??????? Scene parsing is to segment and parse an image into different image regions associated with semantic categories, such as sky, road, person, and bed. MIT Scene Parsing Benchmark (SceneParse150) provides a standard training and evaluation platform for the algorithms of scene parsing. The data for this benchmark comes fromADE20K Dataset which contains more than 20K scene-centric images exhaustivelyannotated with objects and object parts. Specifically, the benchmark is divided into 20K images for training, 2K images for validation, and another batch of held-out images for testing. There are totally 150 semantic categories included for evaluation, which include stuffs like sky, road, grass, and discrete objects like person, car, bed. Note that there are non-uniform distribution of objects occuring in the images, mimicking a more natural object occurrence in daily scene.
???? ?? scene Benchmark包含了150個(gè)物體類別,包括一般無定型的墻壁、水域、地板、道路,也包括常見的室內(nèi)目標(biāo)如窗戶、桌子、椅子、床、杯子等粘附和非粘附目標(biāo),包含了COCO數(shù)據(jù)集的大多數(shù)類別。
??????? 主頁鏈接:http://sceneparsing.csail.mit.edu/?????????????????
??????? 預(yù)訓(xùn)練模型: http://sceneparsing.csail.mit.edu/model/????????
? ? ? ? Model ZOO : https://github.com/CSAILVision/sceneparsing/wiki/Model-Zoo ?? ??????
??????? 一些State 的結(jié)果:https://drive.google.com/drive/folders/0B9CKOTmy0DyaQ2oxUHdtYUd2Mm8?usp=sharing
??????? 挑戰(zhàn)結(jié)果: http://placeschallenge.csail.mit.edu/results_challenge.html? Face++ 暫時(shí)排在第一名
?????????
1. FCN與去卷積網(wǎng)絡(luò)
? deconv的其中一個(gè)用途是做upsampling,即增大圖像尺寸。而dilated conv并不是做upsampling,而是增大感受野。
? 參考:如何理解深度學(xué)習(xí)中的去卷積網(wǎng)絡(luò)層
???? ? ? (1) s>1,即卷積的同時(shí)做了downsampling,卷積后圖像尺寸減小;
????? ?? (2) s=1,普通的步長為1的卷積,比如在tensorflow中設(shè)置padding=SAME的話,卷積的圖像輸入和輸出有相同的尺寸大小;
????? ?? (3) 0<s<1,fractionally strided convolution,相當(dāng)于對(duì)圖像做upsampling。比如s=0.5時(shí),意味著在圖像每個(gè)像素之間padding一個(gè)空白的像素后,stride改為1做卷積,得到的feature map尺寸增大一倍。
???????? 而dilated conv不是在像素之間padding空白的像素,而是在已有的像素上,skip掉一些像素,或者輸入不變,對(duì)conv的kernel參數(shù)中插一些0的weight,達(dá)到一次卷積看到的空間范圍變大的目的。
2. 所謂孔洞卷積
???? ? ? dilated conv,中文可以叫做空洞卷積或者擴(kuò)張卷積。
??????? 參考:如何理解擴(kuò)展卷積網(wǎng)絡(luò)?下一段摘抄于此文
??????? 參考:Multi-scale context aggregation by dilated convolutions
??????? 誕生背景,在圖像分割領(lǐng)域,圖像輸入到CNN(典型的網(wǎng)絡(luò)比如FCN[3])中,FCN先像傳統(tǒng)的CNN那樣對(duì)圖像做卷積再pooling,降低圖像尺寸的同時(shí)增大感受野,但是由于圖像分割預(yù)測是pixel-wise的輸出,所以要將pooling后較小的圖像尺寸upsampling到原始的圖像尺寸進(jìn)行預(yù)測(upsampling一般采用deconv反卷積操作,deconv可參見知乎答案如何理解深度學(xué)習(xí)中的deconvolution networks?),之前的pooling操作使得每個(gè)pixel預(yù)測都能看到較大感受野信息。因此圖像分割FCN中有兩個(gè)關(guān)鍵,一個(gè)是pooling減小圖像尺寸增大感受野,另一個(gè)是upsampling擴(kuò)大圖像尺寸。在先減小再增大尺寸的過程中,肯定有一些信息損失掉了,那么能不能設(shè)計(jì)一種新的操作,不通過pooling也能有較大的感受野看到更多的信息呢?答案就是dilated conv。
下面看一下dilated conv原始論文[4]中的示意圖:
????????
(a)圖對(duì)應(yīng)3x3的1-dilated conv,和普通的卷積操作一樣,(b)圖對(duì)應(yīng)3x3的2-dilated conv,實(shí)際的卷積kernel size還是3x3,但是空洞為1,也就是對(duì)于一個(gè)7x7的圖像patch,只有9個(gè)紅色的點(diǎn)和3x3的kernel發(fā)生卷積操作,其余的點(diǎn)略過。也可以理解為kernel的size為7x7,但是只有圖中的9個(gè)點(diǎn)的權(quán)重不為0,其余都為0。 可以看到雖然kernel size只有3x3,但是這個(gè)卷積的感受野已經(jīng)增大到了7x7(如果考慮到這個(gè)2-dilated conv的前一層是一個(gè)1-dilated conv的話,那么每個(gè)紅點(diǎn)就是1-dilated的卷積輸出,所以感受野為3x3,所以1-dilated和2-dilated合起來就能達(dá)到7x7的conv),(c)圖是4-dilated conv操作,同理跟在兩個(gè)1-dilated和2-dilated conv的后面,能達(dá)到15x15的感受野。對(duì)比傳統(tǒng)的conv操作,3層3x3的卷積加起來,stride為1的話,只能達(dá)到(kernel-1)*layer+1=7的感受野,也就是和層數(shù)layer成線性關(guān)系,而dilated conv的感受野是指數(shù)級(jí)的增長。
?????? dilated的好處是不做pooling損失信息的情況下,加大了感受野,讓每個(gè)卷積輸出都包含較大范圍的信息。在圖像需要全局信息或者語音文本需要較長的sequence信息依賴的問題中,都能很好的應(yīng)用dilated conv,比如圖像分割[3]、語音合成WaveNet[2]、機(jī)器翻譯ByteNet[1]中。
?????? 可以把網(wǎng)絡(luò)看做一個(gè)pooling層插值網(wǎng)絡(luò)。
????? 參考:Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions."arXiv preprint arXiv:1511.07122 (2015).
使用預(yù)訓(xùn)練模型得到的一些結(jié)果:
???????
預(yù)處理模型效果不是很好,應(yīng)該使用競賽排名top的幾個(gè)模型
總結(jié)
以上是生活随笔為你收集整理的场景分割:MIT Scene Parsing 与DilatedNet 扩展卷积网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蚂蚁任命杨鹏为蚂蚁国际事业群总裁 向井贤
- 下一篇: RTX 4060 Ti 16GB开卖最高