人脸识别数据集整理
轉自:人臉識別數據集整理 - 陳曉濤 - 博客園
insightface提供整理了 mtcnn裁剪112x112,mxnet二進制方式保存的數據集
https://github.com/deepinsight/insightface/wiki/Dataset-Zoo
人臉識別訓練數據集:
CASIA-Webface (10K ids/0.5M images)
?CASIA WebFace Dataset 是一個大規模人臉數據集,主要用于身份鑒定和人臉識別,從IMBb網站上搜集來的
?2014年李子青實驗室公開的人臉識別數據集,數據集收集自網絡人臉圖片,包含10575個人494414張圖像
CelebA (10K ids/0.2M images)
CelebA是CelebFaces?Attribute的縮寫,意即名人人臉屬性數據集
其包含10,177個名人身份的202,599張人臉圖片,每張圖片都做好了特征標記,包含人臉bbox標注框、5個人臉特征點坐標以及40個屬性標記
CelebA由香港中文大學開放提供,廣泛用于人臉相關的計算機視覺訓練任務,可用于人臉屬性標識訓練、人臉檢測訓練以及landmark標記等
官方網址:CelebA Dataset
UMDFace (8K ids/0.37M images)
該數據集包含367920張人臉,分別類屬于8501個事件類別。
提供的人臉信息包括,人臉框,人臉姿勢,(yaw,pitch,roll),21個關鍵點,性別信息等。
由于圖片尺度,方向等的問題,使得該數據集不適合做人臉檢測的訓練,適合做人臉識別。
數據集下載地址,UMDFaces
VGG2 (9K ids/3.31M images)
VGGFace2?是一個大規模人臉識別數據,包含331萬圖片,9131個ID,平均圖片個數為362.6。
該數據集是從谷歌中下載的,包含不同姿態、年齡、光照和背景的人臉圖片,其中約有59.7%的男性。
除了身份信息之外,數據集還包括人臉框,5個關鍵點、以及估計的年齡和姿態。
MS1M-IBUG (85K ids/3.8M images)
原數據集:MS-Celeb-1M
100K人的共100M圖片,來自搜索引擎。這個數據集非常大,沒有清洗過,噪聲很大,很難。
iBUG清洗過的數據集,85K ids,3.8M圖片
MS1M-ArcFace (85K ids/5.8M images)
原數據集:MS-Celeb-1M
100K人的共100M圖片,來自搜索引擎。這個數據集非常大,沒有清洗過,噪聲很大,很難。
ArcFace清洗過的數據集,85K ids,5.8M圖片
Asian-Celeb (94K ids/2.8M images)
亞洲名人數據集 9.4萬ID,280萬張圖片
DeepGlint (181K ids/6.75M images)
由兩部分人臉數據組成
Trillionpairs
1.原數據集:MS-Celeb-1M
由DeepGlint格林深瞳公司清洗的86,876個ids?/?3,923,399個對齊圖像。
2.原數據集:Asian-Celeb
由DeepGlint格林深瞳公司清洗的93,979個ids?/?2,830,146個對齊圖像。
合并后數據集:ids:86876+93979=181K,?圖片數量:3923399+2830146=6.75M
IMDB-Face (59K ids/1.7M images)
IMDb-Face是用于人臉識別研究的新的大規模噪聲控制數據集。
該數據集包含約170萬張面孔,5萬9千個身份
所有圖像均從IMDb網站獲得
Celeb500k (500K ids/50M images)?
名人數據集包含50萬人的5千萬圖片
MegaFace (672K ids/4.7M images)?
672K人的4.7M張圖片
MegaFace數據集是最大的可公開使用的面部識別數據集,具有一百萬個面部及其各自的邊界框。
MegaFace的圖片是在由雅虎放出的含1億圖片的Flickr數據集的基礎上進一步提取和處理得到的
MegaFace
人臉識別驗證數據集:
CFP-FP (500 ids/7K images/7K pairs)[12]
這個數據集由500個identity的約共7000張圖片組成,這個數據集的特別之處在于對于每個人,它有10張正面圖像和4張側面圖像,
這對于想要做側臉識別的同學還是很有幫助的
下載鏈接:?cfpw.io
AgeDB-30 (570 ids/12,240 images/6K pairs)[13,6]
AgeDB(Age?Database?)包含
6000對?共440個ID,12240張不同姿態、表情、年齡、性別的圖片。
同一個ID中,最大最小年齡差分別為3歲和101歲,所有ID的平均年齡為49歲。
根據不同的年齡差把所有數據劃分為4個年齡段(年齡差5歲、10歲、20歲以及30歲)。其中每個年齡段的數據包括300對正樣本、300對負樣本。
此處驗證集使用年齡差為30的數據,命名為agedb30。
LFW (5749 ids/13233 images/6K pairs)[14]
5749個ID,13233張不同姿態、表情的圖片,提供的人臉圖片均來源于生活中的自然場景
LFW數據集主要測試人臉識別的準確率,該數據庫從中隨機選擇了6000對人臉組成了人臉辨識圖片對,
其中3000對屬于同一個人2張人臉照片,3000對屬于不同的人每人1張人臉照片。
測試過程LFW給出一對照片,詢問測試中的系統兩張照片是不是同一個人,系統給出“是”或“否”的答案。
通過6000對人臉測試結果的系統答案與真實答案的比值可以得到人臉識別準確率。
http://vis-www.cs.umass.edu/lfw/
CALFW (5749 ids/13233 images/6K pairs)[15]
基于LFW數據集標注的跨年齡數據集,Cross-Age?LFW?(CALFW)?database
Cross-Age LFW (CALFW) Database
CPLFW (5749 ids/13233 images/6K pairs)[16]
?基于LFW數據集標注的跨姿態數據集,Cross-Pose?LFW?(CPLFW)?Database
Cross-Pose LFW (CPLFW) Database
人臉識別圖像測試數據集:
MegaFace
使用MegaFace的測試數據集
MegaFace
IJB (IJB-B, IJB-C)
IJB-A?全稱為?IARPA?Janus?Benchmark-A?face?challenge,?由?NIST(National?Institute?of?Standards?and?Technology)所提出,
該競賽所提供的數據集包含?500?個對象的?5712?張靜態人臉圖像和?2085?個人臉視頻幀。
IJB-A Dataset Request Form | NIST
IJB-B?由?IJB-A?迭代而來,
該競賽所提供的數據集包含?1845?個對象的?11754?張人臉圖像,?55026?個視頻幀,7011?個視頻,10044?張非人臉圖像。
IJB-C?由?IJB-B?迭代而來,
該競賽所提供的數據集包含?3531?個對象的?21294?張人臉圖像,?117542?個視頻幀,11779?個視頻,10040?張非人臉圖像。
IJB-C Dataset Request Form | NIST
TrillionPairs
使用格林深瞳的測試數據集
Trillionpairs
NIST
由美國國家標準與技術研究院?NIST(National?Institute?of?Standards?and?Technology)?組織的人臉識別算法測試集
NIST?指導下的人臉識別算法測試,數據均來自真實業務場景,意味著測試結果代表該技術在實戰場景中的表現;數據規模是通過對百億對樣本采樣,達到百萬量級。
其中IJB也是NIST組織提供
Face Challenges | NIST
FRVT:Face?Recognition?Vendor?Test,人臉識別技術評測
參考:
淺談FRVT人臉識別測評
全球人臉識別算法測試(FRVT)最新榜單解讀,冠軍花落多家?
FRVT是美國國家標準技術局NIST組織的專業人臉識別測評,其主要目的是測試人臉識別算法水準。
FRVT測評不會公布人臉的訓練集,很難通過擬合訓練集方式參加比賽。參賽者提供算法SDK之后,FRVT直接測試這些算法性能。
FRVT訓練集及測試集都不提供
FRVT人臉識別挑戰大賽會給出一個排行榜,記錄每個參賽組織在Visa,Mugshot、Wild、Child?exploitation等六個數據集上的拒識率和誤識率排行情況。
人臉識別視頻測試數據集:
YTF
Youtube人臉(YTF)數據集包含3?495個不同人的視頻,平均每人2.15個視頻
YouTube Faces Database : Main
IQIYI
愛奇藝開放目前全球最大的明星視頻數據集(iQIYI-VID),該數據集包含5000位明星藝人,以及長達1000小時、50萬條視頻片段
AI競賽
其他數據集:
年齡識別數據集IMDB-WIKI
IMDB-WIKI - 500k+ face images with age and gender labels
包含524230張從IMDB和Wikipedia爬取的名人數據圖片。應用了一個新穎的化回歸為分類的年齡算法。本質就是在0-100之間的101類分類后,對于得到的分數和0-100相乘,并將最終結果求和,得到最終識別的年齡。
總結
- 上一篇: 红帽rhce考试自带补考吗_红帽RHCE
- 下一篇: 一个漫长的程序人生路程,如何突破5000