深度学习(十八)——YOLOv2(2), 语义分割
YOLOv2
Stronger(續(xù))
Hierarchical classi?cation(層次式分類)
ImageNet的標(biāo)簽參考WordNet(一種結(jié)構(gòu)化概念及概念之間關(guān)系的語言數(shù)據(jù)庫)。例如:
很多分類數(shù)據(jù)集采用扁平化的標(biāo)簽。而整合數(shù)據(jù)集則需要結(jié)構(gòu)化標(biāo)簽。
WordNet是一個(gè)有向圖結(jié)構(gòu)(而非樹結(jié)構(gòu)),因?yàn)檎Z言是復(fù)雜的(例如“dog”既是“canine”又是“domestic animal”),為了簡化問題,作者從ImageNet的概念中構(gòu)建了一個(gè)層次樹結(jié)構(gòu)(hierarchical tree)來代替圖結(jié)構(gòu)方案。這也就是作者論文中提到的WordTree。
WordTree的細(xì)節(jié),更偏NLP一些,這里不再贅述。
參考
https://zhuanlan.zhihu.com/p/25167153
YOLO2
http://blog.csdn.net/jesse_mx/article/details/53925356
YOLOv2論文筆記
http://lanbing510.info/2017/09/04/YOLOV2.html
目標(biāo)檢測之YOLOv2
其它目標(biāo)檢測網(wǎng)絡(luò)
A-Fast-RCNN
A-Fast-RCNN首次將對(duì)抗學(xué)習(xí)引入到了目標(biāo)檢測領(lǐng)域,idea是非常創(chuàng)新的。
http://blog.csdn.net/jesse_mx/article/details/72955981
A-Fast-RCNN論文筆記
R-FCN
FCN在目標(biāo)檢測領(lǐng)域的應(yīng)用。
http://blog.csdn.net/zijin0802034/article/details/53411041
R-FCN: Object Detection via Region-based Fully Convolutional Networks
G-CNN
G-CNN是MaryLand大學(xué)的工作,論文主要的思路也是消除region proposal,和YOLO,SSD不同,G-CNN的工作借鑒了迭代的想法,把邊框檢測等價(jià)于找到初始邊框到最終目標(biāo)的一個(gè)路徑。但是使用one-step regression不能處理這個(gè)非線性的過程,所以作者采用迭代的方法逐步接近最終的目標(biāo)。
http://blog.csdn.net/zijin0802034/article/details/53535647
G-CNN: an Iterative Grid Based Object Detector
語義分割
Semantic segmentation是圖像理解的基石性技術(shù),在自動(dòng)駕駛系統(tǒng)(具體為街景識(shí)別與理解)、無人機(jī)應(yīng)用(著陸點(diǎn)判斷)以及穿戴式設(shè)備應(yīng)用中舉足輕重。
我們都知道,圖像是由許多像素(Pixel)組成,而“語義分割”顧名思義就是將像素按照?qǐng)D像中表達(dá)語義含義的不同進(jìn)行分組(Grouping)/分割(Segmentation)。
上圖是語義分割網(wǎng)絡(luò)ENet的實(shí)際效果圖。其中,左圖為原始圖像,右圖為分割任務(wù)的真實(shí)標(biāo)記(Ground truth)。
顯然,在圖像語義分割任務(wù)中,其輸入為一張HxWx3的三通道彩色圖像,輸出則是對(duì)應(yīng)的一個(gè)HxW矩陣,矩陣的每一個(gè)元素表明了原圖中對(duì)應(yīng)位置像素所表示的語義類別(Semantic label)。
因此,圖像語義分割也稱為“圖像語義標(biāo)注”(Image semantic labeling)、“像素語義標(biāo)注”(Semantic pixel labeling)或“像素語義分組”(Semantic pixel grouping)。
由于圖像語義分割不僅要識(shí)別出對(duì)象,還要標(biāo)出每個(gè)對(duì)象的邊界。因此,與分類目的不同,相關(guān)模型要具有像素級(jí)的密集預(yù)測能力。
目前用于語義分割研究的兩個(gè)最重要數(shù)據(jù)集是PASCAL VOC和MSCOCO。
參考:
https://zhuanlan.zhihu.com/p/21824299
從特斯拉到計(jì)算機(jī)視覺之“圖像語義分割”
https://zhuanlan.zhihu.com/SemanticSegmentation
一個(gè)語義分割的專欄
https://zhuanlan.zhihu.com/p/22308032
圖像語義分割之FCN和CRF
https://zhuanlan.zhihu.com/p/25515361
圖像語義分割之特征整合和結(jié)構(gòu)預(yù)測
https://zhuanlan.zhihu.com/p/27794982
語義分割中的深度學(xué)習(xí)方法全解:從FCN、SegNet到各代DeepLab
https://mp.weixin.qq.com/s/cANlqQAI-A2mC9vnd3imQA
Instance-Aware圖像語義分割
https://mp.weixin.qq.com/s/v_TLYYq6cFWuwR9tXM8m-A
如何通過CRF-RNN模型實(shí)現(xiàn)圖像語義分割任務(wù)
https://mp.weixin.qq.com/s/ceCC7Q6yr0QKESeZXi6lWQ
堆疊解卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖像語義分割頂尖效果
https://mp.weixin.qq.com/s/4BvvwV11f9MrrYyLwUrX9w
還在用ps摳圖摳瞎眼?機(jī)器學(xué)習(xí)通用背景去除產(chǎn)品誕生記
https://zhuanlan.zhihu.com/p/24738319
“見微知著”——細(xì)粒度圖像分析進(jìn)展綜述
https://mp.weixin.qq.com/s/V4_euZRcyyxeimXAA_waAg
賈佳亞:最有效的COCO物體分割算法
https://mp.weixin.qq.com/s/Amr34SdrPZho1GQpFS7WBA
見微知著:語義分割中的弱監(jiān)督學(xué)習(xí)
https://mp.weixin.qq.com/s/mQqEe4LC0VHBH2ZAtFanWQ
基于深度學(xué)習(xí)的圖像語義分割方法回顧
https://mp.weixin.qq.com/s/zOWA1oKbopZJuYIAYYlKTA
港中文-商湯聯(lián)合論文:自監(jiān)督語義分割的混合與匹配調(diào)節(jié)
前DL時(shí)代的語義分割
從最簡單的像素級(jí)別“閾值法”(Thresholding methods)、基于像素聚類的分割方法(Clustering-based segmentation methods)到“圖劃分”的分割方法(Graph partitioning segmentation methods),在DL“一統(tǒng)江湖”之前,圖像語義分割方面的工作可謂“百花齊放”。在此,我們僅以“Normalized cut”和“Grab cut”這兩個(gè)基于圖劃分的經(jīng)典分割方法為例,介紹一下前DL時(shí)代語義分割方面的研究。
Normalized cut
Normalized cut (N-cut)方法是基于圖劃分(Graph partitioning)的語義分割方法中最著名的方法之一,于2000年Jianbo Shi和Jitendra Malik發(fā)表于相關(guān)領(lǐng)域頂級(jí)期刊TPAMI。
通常,傳統(tǒng)基于圖劃分的語義分割方法都是將圖像抽象為圖(Graph)的形式G=(V,E)G=(V,E)(VV為圖節(jié)點(diǎn),EE為圖的邊),然后借助圖理論(Graph theory)中的理論和算法進(jìn)行圖像的語義分割。
常用的方法為經(jīng)典的最小割算法(Min-cut algorithm)。不過,在邊的權(quán)重計(jì)算時(shí),經(jīng)典min-cut算法只考慮了局部信息。如下圖所示,以二分圖為例(將GG分為不相交的A,BA,B兩部分),若只考慮局部信息,那么分離出一個(gè)點(diǎn)顯然是一個(gè)min-cut,因此圖劃分的結(jié)果便是類似n1n1或n2n2這樣離群點(diǎn),而從全局來看,實(shí)際想分成的組卻是左右兩大部分。
針對(duì)這一情形,N-cut則提出了一種考慮全局信息的方法來進(jìn)行圖劃分(Graph partitioning),即,將兩個(gè)分割部分A,BA,B與全圖節(jié)點(diǎn)的連接權(quán)重(assoc(A,V)assoc(A,V)和assoc(B,V)assoc(B,V))考慮進(jìn)去:
Ncut(A,B)=cut(A,B)assoc(A,V)+cut(A,B)assoc(B,V)Ncut(A,B)=cut(A,B)assoc(A,V)+cut(A,B)assoc(B,V)
如此一來,在離群點(diǎn)劃分中,Ncut(A,B)Ncut(A,B)中的某一項(xiàng)會(huì)接近1,而這樣的圖劃分顯然不能使得Ncut(A,B)Ncut(A,B)是一個(gè)較小的值,故達(dá)到考慮全局信息而摒棄劃分離群點(diǎn)的目的。這樣的操作類似于機(jī)器學(xué)習(xí)中特征的規(guī)范化(Normalization)操作,故稱為Normalized cut。N-cut不僅可以處理二類語義分割,而且將二分圖擴(kuò)展為K路(K-way)圖劃分即可完成多語義的圖像語義分割,如下圖例。
總結(jié)
以上是生活随笔為你收集整理的深度学习(十八)——YOLOv2(2), 语义分割的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习(二十五)——强化学习(2)
- 下一篇: 深度学习(十九)——FCN, SegNe