Pascal voc 2012 数据集简介
1. 簡介
Pascal VOC網(wǎng)址:http://host.robots.ox.ac.uk/pascal/VOC/
VOC2012數(shù)據(jù)集下載地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
參考鏈接:https://blog.csdn.net/zz2230633069/article/details/84769339
Pascal VOC的三個(gè)主要物體識(shí)別競賽是:分類,檢測和分割(classification, detection, and segmentation)。對于分割任務(wù), VOC2012的trainval包含2007-2011年的所有對應(yīng)圖片, test只包含2008-2011。trainval有 2913張圖片共6929個(gè)物體。
2. 分類
總共20類如下(背景為第21類):
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
序號(hào)為(0代表背景,1~20代表20個(gè)類別):
| 0 | background | ? | ? |
| 1 | aeroplane | 11 | diningtable |
| 2 | bicycle | 12 | dog |
| 3 | bird | 13 | horse |
| 4 | boat | 14 | motorbike |
| 5 | bottle | 15 | person |
| 6 | bus | 16 | pottedplant |
| 7 | car | 17 | sheep |
| 8 | cat | 18 | sofa |
| 9 | chair | 19 | train |
| 10 | cow | 20 | tv |
分布如下:
類別與顏色的對應(yīng)關(guān)系如下:
一張標(biāo)簽圖片總共有22種數(shù)字(0-20,255)其中0和255的顏色都是黑色RGB=(0,0,0),所以語義圖總共有21種顏色。
?
?
3. 具體文件
下載后得到如下壓縮包:
在VOCdevkit/VOC2012下有5個(gè)文件夾,如下所示:
逐個(gè)介紹:
(1)Annotations
Annotations文件夾中存放的是xml格式的標(biāo)簽文件,每一個(gè)xml文件都對應(yīng)于JPEGImages文件夾中的一張圖片,共計(jì)17125個(gè)文件,如下所示:
以2007_000027.xml和2007_000032.xml文件為例,打開xml文件(截取部分):
2007_000027.xml文件:
2007_000032.xml文件:
紅框標(biāo)注部分表示是否可以用于分割:0否;1是。
(2)ImageSets
ImageSets存放的是每一種類型的challenge對應(yīng)的圖像數(shù)據(jù)。
在ImageSets下有四個(gè)文件夾:
Action:存放的是人的動(dòng)作(running、jumping等等)
Layout:存放的是具有人體部位的數(shù)據(jù)(人的head、hand、feet等等)
Main:存放的是圖像物體識(shí)別的數(shù)據(jù),總共分為20類。
Segmentation:存放的是可用于分割的數(shù)據(jù)。
主要看Segmentation文件夾。其中包含了train.txt(1416張圖)、val.txt(1449張圖)和trainval.txt(2913張圖)三個(gè)文本文件,里面儲(chǔ)存的是用于語義分割的圖片的名字(無擴(kuò)展名)。train和val兩者沒有交集,即訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)不能有重復(fù),隨機(jī)產(chǎn)生而trainval則是兩者的總和。
(3)JPEGImages
JPEGImages文件夾中包含了PASCAL VOC提供的所有的就jpg圖片,共計(jì)17125張,包括了訓(xùn)練和測試圖片。
這些圖像都以“年份_編號(hào).jpg”格式命名。
圖片的像素尺寸大小不一,但是橫向圖的尺寸大約在500*375左右,縱向圖的尺寸大約在375*500左右,長寬均不會(huì)超過512。
(4)SegmentationClass
保存了分割后的標(biāo)簽圖(2913張png圖片),標(biāo)注出了每一個(gè)像素屬于哪一個(gè)類別。
(5)SegmentationObject
保存了分割后的標(biāo)簽圖(2913張png圖片),標(biāo)注出了每一個(gè)像素屬于哪一個(gè)具體的物體。
對比上面兩個(gè)文件夾中文件的區(qū)別:
注意:上面兩個(gè)文件夾中的label圖,位深度是8位,并不是RGB三通道,只是由于colormap的存在,使其看起來是彩色的(具體我也不太了解)。因此,在deeplabv3+方法中,準(zhǔn)備數(shù)據(jù)時(shí)需要先去掉label們的colormap。
總結(jié)
以上是生活随笔為你收集整理的Pascal voc 2012 数据集简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据之Zookeeper
- 下一篇: 中国住户收入调查(CHIP)数据及问卷(