Dataset:数据集集合(CV方向数据集)-常见的计算机视觉图像数据集大集合包括表面缺陷检测数据集(持续更新)
Dataset:數據集集合(CV方向數據集)-常見的計算機視覺圖像數據集大集合包括表面缺陷檢測數據集(建議收藏,持續更新)
目錄
CV常用數據集平臺集合
Mendeley Data
CAISA-WebFace
VGG-Face
MS-Celeb-1M
MegaFace
圖像分類數據集
1、基礎數據集
1.1、MNIST數據集
1.2、CIFAR數據集
1.3、Fashion-MNIST數據集
1.4、PASCAL VOC數據集
1.5、ImageNet數據集
1.6、WebVision數據集
2、表面缺陷檢測數據集
2.1、NEU表面缺陷數據庫
2.2、在電激發光;圖像中缺陷太陽能電池的視覺識別基準
2.3、Kolektor表面缺陷數據集
2.4、DeepPCB數據集
2.5、天池競賽—布匹疵點數據集
2.6、天池競賽—鋁型材表面瑕疵數據集
2.7、弱監督學習下的工業光學檢測
2.8、城市路面裂縫圖像數據集
2.9、橋梁裂縫圖像數據集
2.10、磁瓦表面缺陷數據集
2.11、鐵軌表面缺陷數據集
2.12、Kylberg紋理數據集
3、自然風景類數據集
3.1、圖像分類的多類天氣數據集
4、建筑類數據集
4.1、室內場景數據集
4.2、混凝土裂縫圖像分類
4.3、建筑遺產元素圖像數據集
相關文章
Dataset:數據集集合(CV方向數據集)——常見的計算機視覺圖像數據集大集合(建議收藏,持續更新)
CV常用數據集平臺集合
? ? ? ? 深度學習需要數據,許許多多的數據。前文提到過的著名圖像分類模型的訓練都基于龐大的數據集。排名前三的訓練數據集分別是:
ImageNet——150 萬圖像,1000 個對象分類/類別;圖像處理常用的數據集ImageNet。
COCO——250 萬圖像,91 個對象分類;
PASCAL VOC——50 萬圖像,20 個對象分類。
Mendeley Data
?官網:https://data.mendeley.com/
CAISA-WebFace
官網:
http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.htmlhttp://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html
VGG-Face
官網:Visual Geometry Group - University of Oxford
MS-Celeb-1M
官網:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-millioncelebrities-real-world/
MegaFace
官網:MegaFace
圖像分類數據集
1、基礎數據集
1.1、MNIST數據集
Dataset之MNIST:MNIST(手寫數字圖片識別+ubyte.gz文件)數據集簡介+數據增強(將已有MNIST數據集通過移動像素上下左右的方法來擴大數據集為初始數據集的5倍)
1.2、CIFAR數據集
Dataset之CIFAR-10:CIFAR-10數據集簡介、下載、使用方法之詳細攻略
1.3、Fashion-MNIST數據集
Dataset之Fashion-MNIST:Fashion-MNIST數據集簡介、下載、使用方法之詳細攻略
1.4、PASCAL VOC數據集
Dataset之Pascal VOC:Pascal VOC(VOC 2012、VOC 2007) 數據集的簡介、下載、使用方法詳細攻略
1.5、ImageNet數據集
Dataset之ImageNet:ImageNet數據集簡介、安裝、使用方法之詳細攻略
1.6、WebVision數據集
Dataset之WebVision:WebVision數據集簡介、下載、使用方法之詳細攻略
2、表面缺陷檢測數據集
? ? ? ? 關于表面缺陷檢測的文章,主要檢測對象是:金屬表面、液晶屏、建筑、輸電線路等缺陷或異常檢測對象。方法主要有分類方法、檢測方法、重建方法和生成方法。論文的電子版本(PDF)放在“paper”文件夾中與日期對應的文件下。
https://github.com/Charmve/Surface-Defect-Detection/tree/master/Papers
- CNN for Classfication
- Image pyramid hierarchy idea and convolutional denoising autoencoder network to detect texture defects
- Cascade autoencoder (CASAE) structure is used for segmentation and positioning of abnormal metal surface
- Faster R-CNN for Defect Detection in Civil Engineering
- Active learning for defect classification
- An experiment of CNN: LCD screen anomaly detection
- Deep learning & Transfer Learning
- Segmentation Network for Magnetic Tile Defect Detection
- Classic PHOTO Algorithm
- Classic DCT Algorithm
- An unsupervised scanning electron microscope image (SEM) detection method for nanofiber materials
- Faster R-CNN Concrete Crack Detection
- Multi-scale Convolutional Denoising Autoencoder Network Model
- CNN for Classfication
- Weibull
- Neuro-Evolution
- GAN for Defect Detection
- GAN for Anomaly Detection
- GAN for Defect Classfication
- YOLO for Defect Classfication
- Semi-supervised Method for Anomaly Detection
- Use semantic segmentation methods for detection under small samples
- SDD-CNN for Defect Detection
- FCN for Defect Detection
- Fabric Defect Detection
2.1、NEU表面缺陷數據庫
數據集下載:http://faculty.neu.edu.cn/yunhyan/NEU_surface_defect_database.html
? ? ? ?在東北大學(NEU)表面缺陷數據庫中,收集了熱軋帶鋼6種典型的表面缺陷,即卷縮皮(RS)、斑塊(Pa)、裂紋(Cr)、點蝕面(PS)、夾雜物(In)和劃痕(Sc)。該數據庫包括1800張灰度圖像:6種不同類型的典型表面缺陷各300個樣本。
? ? ? ?圖1為六種典型表面缺陷的樣本圖像,每幅圖像的原始分辨率為200×200像素。從圖1中我們可以清楚地觀察到類內缺陷在外觀上存在較大差異,例如,劃痕(最后一列)可能是水平劃痕、垂直劃痕、傾斜劃痕等。同時,類間缺陷也具有相似的特征,如:滾入鱗片、裂紋和點蝕表面。此外,由于光照和材料變化的影響,類內缺陷圖像的灰度值也會發生變化。總之,NEU表面缺陷數據庫包含兩大難題,即類內缺陷外觀差異較大,類間缺陷方面相似,缺陷圖像受光照和材料變化的影響。
2.2、在電激發光;圖像中缺陷太陽能電池的視覺識別基準
數據集下載:https://github.com/zae-bayern/elpv-dataset
? ? ? ?提供了從高分辨率光電組件的電致發光圖像中提取的太陽能電池圖像數據集。
? ? ? ?該數據集包含2,624個樣本,樣本為300×300像素的8位灰度圖像,包含44個不同退化程度的功能性和缺陷太陽能電池。注釋圖像中的缺陷可以是內在缺陷,也可以是外在缺陷,已知它們會降低太陽能組件的功率效率。所有的圖像都在大小和透視方面進行了規范化。此外,在提取太陽能電池之前,用于捕獲EL圖像的相機鏡頭所引起的任何畸變都被消除了。
2.3、Kolektor表面缺陷數據集
數據集下載:/resources/kolektorsdd/
https://box.vicos.si/skokec/gostop/KolektorSDD.zip
? ? ? ?該數據集是由Kolektor Group d.o.o.提供和注釋的缺陷電氣換向器圖像構建的。具體地說,在電子換向器中嵌入的塑料表面觀察到微觀碎片或裂紋。每個換向器的表面積在8張不重疊的圖像中被捕獲。這些圖像是在受控環境下拍攝的。數據集包括:
- 50件實物(有缺陷的電氣換向器)
- 每件8面
- 共399張圖片:
- 52張可見缺陷圖像
- 347張圖片,無任何缺陷
- 原圖尺寸:
- 寬度:500像素
- 高度:從1240到1270像素
- 對于訓練和評估圖像,應該調整到512 x 1408像素
? ? ? ?對于每個項目,缺陷只在至少一幅圖像中可見,而兩幅圖像上有兩個項目的缺陷,這意味著有52幅圖像的缺陷可見。剩下的347張圖片作為表面無缺陷的反面例子。
2.4、DeepPCB數據集
數據集下載:https://github.com/Charmve/Surface-Defect-Detection/tree/master/DeepPCB
? ? ? ?DeepPCB:一個數據集包含1500對圖像,每個圖像由一個無缺陷的模板圖像和一個對齊的測試圖像組成,其中注釋包括6種最常見的PCB缺陷的位置:?open, short, mousebite, spur, pin hole and spurious copper。
2.5、天池競賽—布匹疵點數據集
數據集下載:2019廣東工業智造創新大賽
鏈接: https://pan.baidu.com/s/12kfZxdDjiA0qMwkoLIGtog 提取碼: mb92?
? ? ? ?布匹疵點檢驗是紡織行業生產和質量管理的重要環節,人工智能和計算機視覺技術應用于紡織行業,其價值無疑是巨大的。本賽場聚焦布匹疵點智能檢測,要求選手研究開發高效可靠的計算機視覺算法,提升布匹疵點檢驗的準確度,降低對大量人工的依賴,提升布樣疵點質檢的效果和效率。初賽階段考察素色布瑕疵檢測和分類能力,復賽階段考察花色布的瑕疵檢測和分類能力。數據描述 深入佛山南海紡織車間現場采集布匹圖像,制作并發布大規模的高質量布匹疵點數據集,同時提供精細的標注來滿足算法要求。其中,素色布數據約8000張,花色布數據約12000張。
2.6、天池競賽—鋁型材表面瑕疵數據集
數據集下載:[飛粵云端2018]廣東工業智造大數據創新大賽—智能算法賽賽題與數據-天池大賽-阿里云天池
? ? ? ?鋁型材是佛山南海的支柱性產業。在鋁型材的實際生產過程中,由于各方面因素的影響,鋁型材表面會產生裂紋、起皮、劃傷等瑕疵,這些瑕疵會嚴重影響鋁型材的質量。為保證產品質量,需要人工進行肉眼目測。然而,鋁型材的表面自身會含有紋路,與瑕疵的區分度不高。傳統人工肉眼檢查十分費力,不能及時準確的判斷出表面瑕疵,質檢的效率難以把控。近年來,深度學習在圖像識別等領域取得了突飛猛進的成果。鋁型材制造商迫切希望采用最新的AI技術來革新現有質檢流程,自動完成質檢任務,減少漏檢發生率,提高產品的質量,使鋁型材產品的生產管理者徹底擺脫了無法全面掌握產品表面質量的狀態。本次大賽選擇南海鋁型材標桿企業的真實痛點作為賽題場景,尋求解決方案,助力企業實現轉型升級,提升行業競爭力。
? ? ? ?大賽數據集里有1萬份來自實際生產中有瑕疵的鋁型材監測影像數據,每個影像包含一個或多種瑕疵。供機器學習的樣圖會明確標識影像中所包含的瑕疵類型。
使用某企業某一產線某一時間段獲取的鋁型材圖片,訓練算法來定位瑕疵所在位置以及判斷瑕疵的類型。
2.7、弱監督學習下的工業光學檢測
《Weakly Supervised Learning for Industrial Optical Inspection》
數據集下載:Weakly Supervised Learning for Industrial Optical Inspection | Heidelberg Collaboratory for Image Processing (HCI)
? ? ? 提出了一個用于統計紋理表面檢測的綜合基準語料庫。我們希望它有助于進一步發展和基準分類算法的應用于工業光學檢測。所有數據都是公開的,可以從這個頁面下載。2007年DAGM研討會的比賽,DAGM(德意志Arbeitsgemeinschaft毛皮Mustererkennung汽車集團,德國的章IAPR國際協會(模式識別)和GNSS(德國的歐洲神經網絡社會章)提供了一個開放的競爭弱監督學習工業光學檢驗作為DAGM研討會的一部分,在2007年舉行。該競賽的靈感來自于自動化光學檢測可以顯著降低工業質量控制的成本。參賽者必須設計一種分類算法:
- 檢測各種統計紋理背景上的各種缺陷。
- 學習從弱標記的訓練數據自動識別缺陷。
- 處理在開發時不知道其確切特征的數據。
- 自動調整所有參數,不需要任何人工干預。
- 跑步時間適中(本比賽訓練時間為24小時,測試階段為12小時)。
- 考慮了假陽性和假陰性決策的不對稱成本(競賽使用1:20)。
? ? ? 這些數據是人工生成的,但類似于現實世界中的問題。10個數據集中的前6個,記為開發數據集,應該用于算法開發。剩下的四個數據集,被稱為比賽數據集,可以用來評估表現。研究人員應考慮在開發完成前不使用或分析競賽數據集作為榮譽準則。在下面我們提供一些關于數據集的細節:
- 每個開發(競賽)數據集包含1000 (2000)“無缺陷”及150 (300)“有缺陷的”圖像保存在灰度8位PNG格式。
- 每個數據集由不同的紋理模型和缺陷模型生成。
- “無缺陷”的圖像顯示的是沒有缺陷的背景紋理,“有缺陷”的圖像恰好在背景紋理上標注了一個缺陷。
- 所有數據集被隨機分割成大小相等的訓練和測試子數據集。
- 弱標簽以橢圓的形式提供,粗略地指出缺陷區域。從技術上講,有缺陷的圖像是通過位于文件夾“Label”中的PNG格式的單獨的8位灰度圖像來增強的。值0和255分別表示背景和缺陷區域。
2.8、城市路面裂縫圖像數據集
數據集下載:https://github.com/cuilimeng/CrackForest-dataset
CrackForest數據集是一個能夠反映城市路面狀況的標注路面裂縫圖像數據庫。
2.9、橋梁裂縫圖像數據集
數據集下載:https://github.com/Charmve/Surface-Defect-Detection/tree/master/Bridge_Crack_Image
? ? ? ? ?該數據集主要用于訓練DBCC模型和橋梁裂縫檢測。
2.10、磁瓦表面缺陷數據集
《Saliency of magnetic tile surface defects》
數據集下載:https://github.com/Charmve/Surface-Defect-Detection/tree/master/Magnetic-Tile-Defect
這是論文《Saliency of magnetic tile surface defects》的數據集。采集了6種常見磁瓦表面缺陷的圖像,并對其像素級地面真值進行標記。表面缺陷顯著性檢測工具箱可以在https://github.com/abin24/Saliency-detection-toolbox找到。其中,我們的MCue和其他14個顯著性檢測模型是可用的。
2.11、鐵軌表面缺陷數據集
數據集下載:http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx
? ? ? ?RSDDs數據集包含兩種類型的數據集:第一種是從快車道捕獲的I型RSDDs數據集,其中包含67個具有挑戰性的圖像。第二個是從普通/重型運輸軌道捕獲的II型RSDDs數據集,其中包含128個具有挑戰性的圖像。 ?兩個數據集的每幅圖像至少包含一個缺陷,并且背景復雜且噪聲很大。 ?RSDDs數據集中的這些缺陷已由一些專業的人類觀察員在軌道表面檢查領域進行了標記。
2.12、Kylberg紋理數據集
數據集下載:Centre for Image Analysis
數據集描述
- 28個紋理類
- 每個職業有160個獨特的紋理補丁。(Alternative dataset with 12 rotation per original patch, 160*12=1920紋理patch per class)
- 紋理補丁大小:576x576像素。
- 文件格式:無損壓縮8位PNG格式。
- 對所有patch進行歸一化,均值127,標準差40。
- 每個紋理類一個目錄。
- 文件命名如下:blanket1-d-p011-r180。png,其中blanket1為類名,d為原始圖像樣本號(可能值為a、b、c或d), p011為patch號11,r180 patch旋轉180度。
3、自然風景類數據集
3.1、圖像分類的多類天氣數據集
數據集下載:Multi-class Weather Dataset for Image Classification - Mendeley Data
圖像分類的多類天氣數據集
發布日期:2018年9月13日
Published:?13 September 2018|Version 1|DOI:10.17632/4drtyfjtfy.1
Contributor:
Gbeminiyi Ajayi
Ajayi, Gbeminiyi (2018), “Multi-class Weather Dataset for Image Classification”, Mendeley Data, V1, doi: 10.17632/4drtyfjtfy.1
數據集描述:用于圖像分類的多類天氣數據集(MWD)是《利用異構集成方法從靜止圖像進行多類天氣識別》研究論文中使用的有價值的數據集。數據集通過提取各種特征來識別不同的天氣狀況,為室外天氣分析提供了平臺。
該數據集包含四個類別:
- cloudy
- rain
- shine
- sunrise
4、建筑類數據集
4.1、室內場景數據集
數據集下載:MIT Indoor Scenes | Kaggle
這是MIT提供的原始數據。室內場景識別是高級視覺中一個具有挑戰性的開放性問題。大多數場景識別模型在室外場景識別中效果較好,但在室內場景識別中效果較差。主要的困難在于,雖然一些室內場景(如走廊)可以通過整體空間屬性很好地表征,但其他場景(如書店)則通過它們所包含的對象更好地表征。更普遍地說,為了解決室內場景識別問題,我們需要一個可以利用局部和全局區別信息的模型。
數據集描述:數據庫包含67個室內類目,共15620幅圖像。圖片的數量因類別而異,但每個類別至少有100張圖片。所有圖片均為jpg格式。這里提供的圖片僅供研究之用。
4.2、混凝土裂縫圖像分類
數據集下載:Concrete Crack Images for Classification - Mendeley Data
?zgenel, ?a?lar F?rat (2019), “Concrete Crack Images for Classification”, Mendeley Data, V2, doi: 10.17632/5y9wdsg2zt.2
數據集描述
數據集包含有裂縫的具體圖像。數據收集自不同的meu校園建筑。
將數據集分為負裂紋圖像和正裂紋圖像進行分類。
每個類有20000張圖像,總共40000張圖像,227 x 227像素,RGB通道。
數據集由458張高分辨率圖像(4032x3024 pixel)生成,采用Zhang等(2016)提出的方法。
高分辨率圖像在表面光潔度和光照條件方面存在差異。
沒有應用隨機旋轉或翻轉方面的數據增強。
4.3、建筑遺產元素圖像數據集
數據集下載:Architectural Heritage Elements image Dataset - Datasets - the Datahub
數據集描述
建筑遺產元素數據集(AHE),是一個圖像數據集,用于在建筑遺產圖像分類中開發深度學習算法和特定技術。它受到CIFAR-10數據集的啟發,但目標是開發有助于在文化遺產文獻領域對圖像進行分類的工具。大多數圖片都是從Flickr和Wikimedia Commons獲得的(它們都是在知識共享許可下獲得的)。這個數據集包含10235張圖像,分為10個類別:
- 拱點:514圖像;
- 鐘樓:1059幅圖像;
- 柱子:1919圖像;
- 圓頂(內部):616幅圖像;
- 圓頂(外部):1177幅圖像;
- 飛扶壁:407張圖像;
- |滴水嘴獸(和奇美拉):1571幅圖像;
- 彩色玻璃:1033張圖片;
- 庫:1110的圖像
更多數據集可以參考網站:Face Recognition Homepage - Databases
總結
以上是生活随笔為你收集整理的Dataset:数据集集合(CV方向数据集)-常见的计算机视觉图像数据集大集合包括表面缺陷检测数据集(持续更新)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CV之FR:DIY脚本通过人脸图像得到人
- 下一篇: CV之FRec之ME/LF:人脸识别中常