camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)
深度學(xué)習(xí)圖像數(shù)據(jù)集介紹(MSCOCO)
MSCOCO數(shù)據(jù)集是微軟開發(fā)維護的大型圖像數(shù)據(jù)集,次數(shù)聚集的任務(wù)包括識別(recognition),分割(segementation),及檢測(detection)。 該數(shù)據(jù)集的官方網(wǎng)址為:
http://cocodataset.org/
該數(shù)據(jù)集合的主要特點:
1)目標(biāo)分割
2)基于文本識別
3)每張圖多目標(biāo)
4)超過30萬圖
5)超過2百萬實例
6)80種類別
7)平均每張圖5個目標(biāo)
8)對于十萬個人有關(guān)鍵點
COCO API提供了Matlab,Python和lua的API接口,該接口可以提供完整的圖像標(biāo)簽數(shù)據(jù)的加載,parsing和可視化。此外還有原始論文及相關(guān)實驗論,教程等。在使用coco數(shù)據(jù)庫提供的API和demo前要先下載coco的圖像和label數(shù)據(jù)(類別、類別數(shù)量、像素級的分割等):
圖像下載到本地coco/images/ 文件夾下(為了后面改代碼的路經(jīng)方便)
labels下載到coco/annotations/ 文件夾下
數(shù)據(jù)集分析
圖像分類: 分類基于標(biāo)注好的標(biāo)簽,將大量數(shù)據(jù)進行訓(xùn)練,提取出每種圖像的關(guān)鍵特征后進行識別。
目標(biāo)檢測:經(jīng)過關(guān)鍵點構(gòu)建目標(biāo)位置,進行位置標(biāo)注,訓(xùn)練這些標(biāo)注標(biāo)簽后進行檢測。
基于語義的場景標(biāo)記: 此類的標(biāo)簽制作過程中需要分析多方面的內(nèi)容,做成像素級別的標(biāo)簽。 在這個數(shù)據(jù)集中同時包含了室內(nèi)和室外的場景數(shù)據(jù)集。
MSCOCO數(shù)據(jù)示例
COCO數(shù)據(jù)集分兩部分發(fā)布,第一次于2014年發(fā)布,82783個訓(xùn)練樣本,40504驗證樣本以及40775的測試樣本,另外有27萬的分割人像圖和88.6萬的分割物體圖。2015年的版本中哦你哦個包括165482的訓(xùn)練樣本,81208驗證樣本和82434測試樣本。
我開始在官網(wǎng)上下載沒有成功,后來知道了一種方法,可以輸入以下命令進行下載/
1、安裝aria2
sudo apt-get install aria2
2、依次輸入下面三個命令
aria2c -c http://msvocds.blob.core.windows.net/annotations-1-0-3/instances_train-val2014.zip
aria2c -c http://msvocds.blob.core.windows.net/coco2014/train2014.zip
aria2c -c http://msvocds.blob.core.windows.net/coco2014/val2014.zip
根據(jù)文件的后綴應(yīng)該能分得出來,annotation是標(biāo)簽,train2014是訓(xùn)練集,val2014是驗證集。我這點玩意下載了一周,失敗了幾次才完全下載下下來。如果在下載中途中斷了,重新輸入命令即可。
以上鏈接可以下載的是2014版本的數(shù)據(jù)。
annotation里是json文件,打開后可以看到標(biāo)注的內(nèi)容。
用 LibreOffice Writer可以打開
這個圖里可以看到一大堆的屬性標(biāo)簽。
Jason保存的是一堆信息,相當(dāng)于一個字典。
info指向一些基本信息: 包括時間,版本,貢獻者,網(wǎng)址鏈接等。
image指向列表,內(nèi)容是圖像信息,列表中的每一個字典下存儲一張圖像信息:licese、coco_url、data_capture、flickr_url等。
重要的key:
file_name,指向字符串,是圖像的名字;
height和width指向的該圖像的高和寬;
id指向的是圖像特有的label,數(shù)字不重復(fù),可以看做是圖像的本身信息。好像身份證上的數(shù)字一樣
annotation指向一個list,包含多個字典,每個字典中包含一個物體分割的信息。第一個segmentation中指向兩串?dāng)?shù)字矩陣,含義是像素級分割得到的物體邊緣坐標(biāo)。坐標(biāo)成對出現(xiàn);后面area是segmentation的面積;iscrowded是重疊信息; bbox是物體的label框;category_id指向的數(shù)字代表類別;最后的id是每個框的身份編號; 最后的categories這個key是指向每個類別的名稱和編號。
coco與其他數(shù)據(jù)集的比較
coco數(shù)據(jù)集中一些標(biāo)注圖像的示例
總結(jié)
以上是生活随笔為你收集整理的camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: rand()函数100000随机数_利用
- 下一篇: 用fft对信号进行频谱分析实验报告_FF