cifar10-cifar100各种版本下载
生活随笔
收集整理的這篇文章主要介紹了
cifar10-cifar100各种版本下载
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
<返回Alex Krizhevsky的主頁
CIFAR-10和CIFAR-100被標記為 8000萬個小圖像 數據集的子集。他們由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集。CIFAR-10數據集
CIFAR-10數據集由10個類別的60000個32x32彩色圖像組成,每個類別有6000個圖像。有50000個訓練圖像和10000個測試圖像。?數據集分為五個訓練批次和一個測試批次,每個批次和10000個圖像。測試批次包含來自每個類的正好1000個隨機選擇的圖像。訓練批次以隨機順序包含剩余的圖像,但是一些訓練批次可能包含來自一個課程的更多圖像。在他們之間,培訓批次包含每個類別的正好5000個圖像。?
以下是數據集中的類,以及每個類的10個隨機圖像:
| 飛機 | ||||||||||
| 汽車 | ||||||||||
| 鳥 | ||||||||||
| 貓 | ||||||||||
| 鹿 | ||||||||||
| 狗 | ||||||||||
| 青蛙 | ||||||||||
| 馬 | ||||||||||
| 船 | ||||||||||
| 卡車 |
這些課程是完全相互排斥的。汽車和卡車之間沒有重疊。“汽車”包括轎車,SUV,這樣的事情。“卡車”只包括大型卡車。既不包括皮卡車。
下載
如果您要使用此數據集,請引用本頁底部的技術報告。?| 版 | 尺寸 | 的md5sum |
| CIFAR-10 python版本 | 163 MB | c58f30108f718f92721af3b95e74349a |
| CIFAR-10 Matlab版本 | 175 MB | 70270af85842c9e89bb428ec9976c926 |
| CIFAR-10二進制版本(適用于C程序) | 162 MB | c32a1d4ab5d03f1284b67883e8d87530 |
基線結果
您可以 在cuda-convnet的項目頁面 上找到關于此數據集的一些基線可復制結果。這些結果是用卷積神經網絡獲得的。簡而言之,它們在沒有數據增加的情況下是18%的測試錯誤,而11%的測試錯誤。此外, Jasper Snoek 還有一篇 新文章 ,他使用貝葉斯超參數優化來找到重量衰減和其他超參數的漂亮設置,這使得他能夠使用網絡架構獲得15%的測試錯誤率(無數據增加)有18%。其他結果
Rodrigo Benenson 已經很善于在他的網站上收集CIFAR-10/100和其他數據集的結果;? 點擊這里 查看。數據集布局
Python / Matlab版本
我將描述數據集的Python版本的布局。Matlab版本的布局是一樣的。?歸檔包含文件 data_batch_1 , data_batch_2 ,..., data_batch_5 以及 test_batch 。這些文件中的每一個都是使用 cPickle 生成的Python“腌制”對象。這是一個python2例程,它將打開這樣一個文件并返回一個字典: def unpickle(file):導入cPickle用open(file,'rb')作為fo:dict = cPickle.load(fo)返回字典 和一個python3版本: def unpickle(file):進口泡菜用open(file,'rb')作為fo:dict = pickle.load(fo,encoding ='bytes')返回字典 以這種方式加載,每個批處理文件都包含一個具有以下元素的字典:
- 數據?-一個10000x3072?numpy的陣列UINT8秒。陣列的每一行都存儲32x32彩色圖像。前1024個條目包含紅色通道值,接下來的1024個綠色,最后1024個藍色。圖像以行主順序存儲,因此陣列的前32個條目是圖像的第一行的紅色通道值。
- 標簽?- 范圍為0-9的10000個數字的列表。索引i處的數字表示陣列數據中第i個圖像的標號。
數據集包含另一個名為 batches.meta的 文件。它也包含一個Python字典對象。它具有以下條目:
- label_names?- 一個10元素列表,為上述標簽數組中的數字標簽提供有意義的名稱。例如,label_names [0] ==“airplane”,label_names [1] ==“汽車”等
二進制版本
二進制版本包含文件 data_batch_1.bin , data_batch_2.bin ,..., data_batch_5.bin 以及 test_batch.bin 。這些文件的格式如下: <1 x label> <3072 x像素> ... <1 x label> <3072 x像素> 換句話說,第一個字節是第一個圖像的標簽,它是0-9范圍內的數字。接下來的3072個字節是圖像像素的值。前1024個字節是紅色通道值,接下來的1024個綠色,最后1024個是藍色。這些值以行主順序存儲,因此前32個字節是圖像第一行的紅色通道值。?每個文件包含10000個這樣的3073字節的“行”的圖像,盡管 沒有分隔行 。因此,每個文件應該是30730000字節長。?
還有一個名為batches.meta.txt的文件 。這是一個ASCII文件,將范圍為0-9的數字標簽映射到有意義的類名。它只是10個類名的列表,每行一個。行 i 上的類名稱對應于數字標簽 i 。
CIFAR-100數據集
該數據集就像CIFAR-10,除了它有100個類,每個包含600個圖像。每班有500個訓練圖像和100個測試圖像。CIFAR-100中的100個課程分為20個超類。每個圖像都帶有一個“精細”標簽(它所屬的類)和一個“粗”標簽(它所屬的超類)。以下是CIFAR-100中的課程列表:
| 超 | 類 |
| 水生哺乳動物 | 海貍,海豚,水獺,印章,鯨魚 |
| 魚 | 水族館魚,鰈魚,ray魚,鯊魚,鱒魚 |
| 花卉 | 蘭花,罌粟花,玫瑰,向日葵,郁金香 |
| 食品容器 | 瓶,碗,罐,杯子,盤子 |
| 水果和蔬菜 | 蘋果,蘑菇,橙子,梨,甜椒 |
| 家用電器 | 時鐘,電腦鍵盤,燈,電話,電視 |
| 家用家具 | 床,椅子,沙發,桌子,衣柜 |
| 昆蟲 | 蜜蜂,甲蟲,蝴蝶,毛蟲,蟑螂 |
| 大食肉動物 | 熊,豹,獅,虎,狼 |
| 大型人造戶外用品 | 橋,城堡,房子,道路,摩天大樓 |
| 大自然戶外場景 | 云,森林,山,平原,海 |
| 大型雜食動物和食草動物 | 駱駝,牛,黑猩猩,大象,袋鼠 |
| 中型哺乳動物 | 狐貍,豪豬,負鼠,浣熊,臭鼬 |
| 非昆蟲無脊椎動物 | 螃蟹,龍蝦,蝸牛,蜘蛛,蠕蟲 |
| 人 | 寶貝,男孩,女孩,男人,女人 |
| 爬行動物 | 鱷魚,恐龍,蜥蜴,蛇,龜 |
| 小型哺乳動物 | 倉鼠,老鼠,兔,rew,松鼠 |
| 樹木 | 楓樹,橡樹,棕櫚,松樹,柳樹 |
| 車輛1 | 自行車,公共汽車,摩托車,皮卡車,火車 |
| 車輛2 | 割草機,火箭,有軌電車,坦克,拖拉機 |
是的,我知道蘑菇不是真的水果或蔬菜,而熊不是真正的食肉動物。?
下載
| 版 | 尺寸 | 的md5sum |
| CIFAR-100 python版本 | 161 MB | eb9058c3a382ffc7106e4002c42a8d85 |
| CIFAR-100 Matlab版本 | 175 MB | 6a4bfa1dcd5c9453dda6bb54194911f4 |
| CIFAR-100二進制版本(適用于C程序) | 161 MB | 03b5dce01913d631647c71ecec9e9cb8 |
數據集布局
Python / Matlab版本
python和matlab版本的布局與CIFAR-10相同,所以我不會浪費在這里描述的空間。二進制版本
CIFAR-100的二進制版本就像CIFAR-10的二進制版本,不同之處在于每個圖像都有兩個標簽字節(粗略和精細)和3072像素字節,因此二進制文件如下所示: <1 x粗標簽> <1 x精細標簽> <3072 x像素> ... <1 x粗標簽> <1 x精細標簽> <3072 x像素>指數進入原始的8000萬個小圖像數據集
Sivan Sabato很善于提供 這個文件 ,它將CIFAR-100圖像映射到8000萬個小圖像數據集中的圖像。Sivan寫: 該文件有60000行,每行包含單個索引到小數據庫, 其中小數據庫中的第一個圖像被索引為“1”。“0”表示不是從小數據庫的圖像。 前50000行對應于訓練集,最后10000行對應 到測試集。參考
該技術報告(第3章)描述了在更詳細地收集數據集和所采用的方法。如果您打算使用此數據集,請引用它。?- 學習細微圖像的多層功能,Alex Krizhevsky,2009。
總結
以上是生活随笔為你收集整理的cifar10-cifar100各种版本下载的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何修改ZBrush 4R7中工作区颜色
- 下一篇: python教程(从入门到巅峰)1