图像目标分割_1 概述
?
6.1.1 什么是目標分割
- 定義:在計算機視覺領域,圖像分割(Object Segmentation)指的是將數字圖像細分為多個圖像子區域(像素的集合)的過程。
圖像分割的目的:簡化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割通常用于定位圖像中的物體和邊界(線,曲線等)。更精確的,圖像分割是對圖像中的每個像素加標簽的一個過程,這一過程使得具有相同標簽的像素具有某種共同視覺特性。
圖像分割的結果:圖像上子區域的集合,或是從圖像中提取的輪廓線的集合(例如邊緣檢測)。一個子區域中的每個像素在某種特性的度量下或是由計算得出的特性都是相似的,例如顏色、亮度、紋理。鄰接區域在某種特性的度量下有很大的不同。比如下面:
目標分割任務類型
目前的分割任務主要有兩種: 語義分割和實例分割
- 語義分割就是把圖像中每個像素賦予一個類別標簽(比如汽車、建筑、地面、天空等),標注為人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等
- 實例分割(上圖右)其實就是目標檢測和語義分割的結合。相對目標檢測的邊界框,實例分割可精確到物體的邊緣;相對語義分割,實例分割需要標注出圖上同一物體的不同個體。
下面這張圖詳細表示區別:
6.1.2 目標分割算法介紹
深度學習最初流行的分割方法是,打補丁式的分類方法。逐像素地抽取周圍像素對中心像素進行分類。由于當時的卷積網絡末端都使用全連接層,所以只能使用這種逐像素的分割方法。但是到了2014年,來自伯克利的(FCN) 卷積網絡,去掉了末端的全連接層。隨后的語義分割模型基本上都采用了這種結構。
6.1.2.1 算法分類
-
背景:應用各種傳統的計算機視覺和機器學習技術,這些問題已經得到了解決。雖然這些方法很流行,但深度學習革命讓相關領域發生了翻天覆地的變化,因此,包括語義分割在內的許多計算機視覺問題都開始使用深度架構來解決,通常是卷積神經網絡CNN,而CNN在準確率甚至效率上都遠遠超過了傳統方法。當然,相比于固有的計算機視覺及機器學習分支,深度學習還遠不成熟。也因此,還沒有一個統一的工作及對于目前最優方法的綜述。
-
基礎:最成功用于語義分割的深度學習技術均來自同一個種類,即全卷積網絡FCN,成為了深度學習技術應用于語義分割問題的基石
下圖就是分割算法的分類類別,主要指的是廣義的語義分割的幾條方向線:
1、基礎算法
- FCN(全卷積網絡)
- 1、基于解碼器的方法
- SegNet,U-Net
- 2、基于信息融合的方法
- 2、整合上下文知識
- 條件隨機場:DeepLab (v1 & v2)、DeepLab v3
- 擴張卷積:Dilated Convolutions、ENet
- 多尺度預測:
- 特征融合:Sharp Mask
- 循環神經網絡:ReSeg、RCNN、LSTM-CF、DAG-RNN
- 3、實例分割
- DeepMask、SDS
- 4、三維數據:Point Net
- 5、視頻序列
- 6、MaskRCNN
- 一個小巧、靈活的通用對象實例分割框架。不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質量的分割結果。
6.1.3 數據集及競賽
介紹語義分割領域最近最受歡迎的大規模數據集。所有列出的數據集均包含像素級別或點級別的標簽。這個列表將根據數據內在屬性分為3個部分:
-
2維的或平面的RGB數據集
-
2.5維或帶有深度信息的RGB(RGB-D)數據集
-
純體數據或3維數據集。
下表給出了這些數據集的概覽,收錄了常見的數據集并提供了一些有用信息如他們的被構建的目的、類數、數據格式以及訓練集、驗證集、測試集劃分情況
6.1.3.1 二維數據集
1、PASCAL視覺物體分類數據集
PASCAL視覺物體分類數據集(PASCAL-VOC)(The PASCAL Visual Object Classes Challenge 2012 (VOC2012)) : 包括一個標注了的圖像數據集和五個不同的競賽:分類、檢測、分割、動作分類、人物布局。分割的競賽很有趣:他的目標是為測試集里的每幅圖像的每個像素預測其所屬的物體類別。有21個類,包括輪子、房子、動物以及其他的:飛機、自行車、船、公共汽車、轎車、摩托車、火車、瓶子、椅子、餐桌、盆栽、沙發、顯示器(或電視)、鳥、貓、狗、馬、綿羊、人。如果某像素不屬于任何類,那么背景也會考慮作為其標簽。該數據集被分為兩個子集:訓練集1464張圖像以及驗證集1449張圖像。
2、城市風光數據集
https://www.cityscapes-dataset.com/)是一個大規模的關注于城市街道場景理解的數據集,提供了8種30個類別的語義級別、實例級別以及密集像素標注(包括平坦表面、人、車輛、建筑、物體、自然、天空、空)。該數據集包括約5000張精細標注的圖片,20000張粗略標注的圖片。數據是從50個城市中持續數月采集而來,涵蓋不同的時間以及好的天氣情況。開始起以視頻形式存儲,因此該數據集按照以下特點手動選出視頻的幀:大量的動態物體,變化的場景布局以及變化的背景。
6.1.3.2 2.5維度數據集
隨著廉價的掃描器的到來,帶有深度信息的數據集開始出現并被廣泛使用。NYUDv2數據集(http://cs.nyu.edu/~silberman/projects/indoor?scene seg sup.html)包含1449張由微軟Kinect設備捕獲的室內的RGB-D圖像。其給出密集的像素級別的標注(類別級別和實力級別的均有),訓練集795張與測試集654張均有40個室內物體的類,該數據集由于其刻畫室內場景而格外重要,使得它可以用于某種家庭機器人的訓練任務。但是,它相對于其他數據集規模較小,限制了其在深度網絡中的應用。
6.1.3.3 3D數據集
純粹的三維數據集是稀缺的,通常可以提供CAD網格或者其他的體元表示如點云等。為分割問題獲取三維數據集是困難的,因此很少有深度學習方法可以處理這種數據。
斯坦福2D-3D-S數據集(http://buildingparser.stanford.edu)是一個多模態、大規模室內空間數據集,是斯坦福三維語義分析工作[64]的擴展。提供了多個模態:二維RGB,2.5維添加深度信息的圖片、三維網格和點云,均提供分割標注信息。該數據集有70496張高分辨率的RGB圖像(1080x1080分辨率),以及其對應的深度圖譜、表面法線、網格以及點云,軍事帶有像素級別及點級別的語義標注信息。這些數據取自6個室內區域,分別來自三個不同的教育與辦公建筑。共有271個房間,大約7億個點,被標以13個類。
6.1.4 算法效果?
二維圖像領域
目前在二維圖像領域認為DeepLab是最可靠的方法,其在幾乎每個RGB圖像數據集上都遠遠超過了其他方法。
二維圖像這一類有7個數據集:PASCAL VOC 2012、PASCAL上下文、PASCAL人物、CamVid、CityScapes、斯坦福背景以及SiftFlow數據集。這些數據集涵蓋了多種情況和優化目標。下面列舉其中部分數據集的效果
- VOC2012 數據集表現
- CitySpaces數據集表現
2.5維數據
對于2.5為數據這一分類,也就是數據中不僅包含RGB三個通道,還包含深度信息,下面是三個數據集的對比分析,分別是SUN-RGB-D、NYUDv2、SUN3D
3D數據集
兩個三維數據集:ShapeNet Part和Stanford-2D-3D-S
6.1.4.1 評價指標
對于一個分割系統來說,要對該領域產生重要的影響,必須經過嚴格的評估。另外,評估過程中必須使用標準的眾所周知的評價指標,這樣對于現有方法來說才是公平的。進一步的,必須對方法的各個方面進行評估,然后才能斷言該系統的有效性,這些方面包括運行時間、占用內存、準確率等。由于對目標或上下文的依賴性,某些指標可能會更加重要,也就是說,在一個實時處理的應用中,可能會為了運行速度而犧牲準確率。但是,為了科學的嚴謹性,提供該方法的所有可能的評價指標度量是極其重要的。
5.1.1 運行時間
考慮到可重復性以及對后續研究者的幫助,有必要在提供運行時間的同時給出系統運行的硬件信息,以及基準方法的配置。如果合理地做到了這些,后續的研究者們將可以判斷出這個方法是否對其真實應用實用,并且可以使用相同的環境進行公平的對比。
5.1.2 占用存儲空間
內存占用是分割問題中的另一個重要的考量。在某些場景下,例如機器人平臺上的板載芯片,內存并不會像高性能服務器中一樣充裕。即使是普遍用來加速深度網絡的高端的顯卡(GPU)也不會搭載大容量的存儲空間。基于這些考慮,以及與在時間問題上相似的對于實際應用的考慮,詳細記錄網絡所占用的最大及平均存儲空間是極其有用的。
5.1.3 準確率
已經提出了許多用于評估語義分割問題準確率的評價指標,這些指標通常是像素級準確率及IoU的變體。我們報告了語義分割方面最常用的評價指標,用來度量逐個像素標注類的方法的表現。為便于解釋,我們給出下述標號的意思:我們假設共有k+1類,(從L0到Lk,包括一個空類或者是背景),pij是本屬于第i類卻被分到第j類的像素數量。也就是說,pii代表的是分類正確的正例數量,其他幾個p值類似。
平均交并比(MIoU):這是用于分割問題的標準評價指標,其計算的是兩個集合的交集與其并集的重合比例,在本問題中,其計算的便是真實分割與系統預測的分割之間的交并比。
MIoU是最常用的一個,因為它最具代表性,且非常簡單。許多競賽以及研究者使用該指標來報告其結果。
6.1.4.2 目標分割總結
-
目前DeepLab、MaskRCNN是最可靠的方法,其在幾乎每個RGB圖像數據集上都遠遠超過了其他方法。
-
2.5維和多模態數據集上,循環的網絡如LSTM-CF起到了主導作用。三維數據的分割問題仍有很長的路要走,PointNet為解決無序點云的分割問題開辟了道路。
- 處理視頻序列同樣作為一個待開發區域,至今并沒有明確的方向,但是,時鐘卷積神經網絡憑借其效率和準確率還是成為了最可靠的方法。三維卷積是值得關注的,由于其強大的功能及對多通道輸入數據的可擴展性,且三維卷積可以同時捕獲時間空間信息。
6.1.5 總結
- 目標分割的定義
- 目標分割的任務類型
- 目標分割的常見數據集
- 目標分割的評估方式
總結
以上是生活随笔為你收集整理的图像目标分割_1 概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python tkinter 输入数字
- 下一篇: Inception(Pytorch实现)