推荐一些动作识别数据集
↑↑↑↑↑點(diǎn)擊上方藍(lán)色字關(guān)注我們!
『運(yùn)籌OR帷幄』原創(chuàng)
作者:周巖
編者按:動作識別的研究主要基于對視頻數(shù)據(jù)的識別,其中主要包含動作識別(如手勢識別,運(yùn)動識別等),目標(biāo)識別和姿態(tài)預(yù)測幾個子方向。所有這些方向的研究都離不開有代表性的視頻數(shù)據(jù)。不同于圖像識別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集,動作識別領(lǐng)域的數(shù)據(jù)集比較有限,而且通常所占用的硬盤空間比較大,因此在開展相關(guān)研究之前,仔細(xì)選擇一個合適的數(shù)據(jù)集顯得十分必要。
動作識別(Action Recognition)是最近計(jì)算機(jī)視覺領(lǐng)域比較火的一個Topic,近年來有越來越多的相關(guān)文章出現(xiàn)在CVPR、ICCV和NIPS等機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺頂會上。這里就有一個Github的repo(https://github.com/jinwchoi/awesome-action-recognition)總結(jié)和整理了動作識別領(lǐng)域的相關(guān)研究工作和數(shù)據(jù)資源。
動作識別的研究主要基于對視頻數(shù)據(jù)的識別,其中主要包含動作識別(如手勢識別,運(yùn)動識別等),目標(biāo)識別和姿態(tài)預(yù)測幾個子方向。所有這些方向的研究都離不開有代表性的視頻數(shù)據(jù)。不同于圖像識別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集,動作識別領(lǐng)域的數(shù)據(jù)集比較有限,而且通常所占用的硬盤空間比較大,因此在開展相關(guān)研究之前,仔細(xì)選擇一個合適的數(shù)據(jù)集顯得十分必要。
獲取對自己研究合適的視頻數(shù)據(jù)集可能需要花大量的帶寬資源和硬盤資源下載,本文就動作識別領(lǐng)域目前有的公開數(shù)據(jù)集進(jìn)行了深入研究,詳細(xì)了介紹了一下各個數(shù)據(jù)集的特點(diǎn),讀者可以在本文的幫助下,根據(jù)自身的需要選擇合適的數(shù)據(jù)集下載。
1、經(jīng)典數(shù)據(jù)集
KTH(http://www.nada.kth.se/cvap/actions/):
經(jīng)典的動作識別數(shù)據(jù)集,也是目前文章中使用率較高的數(shù)據(jù)集之一。數(shù)據(jù)集一共包含2391組數(shù)據(jù),其中包含6個動作,每個動作由25個人物在4個不同的場景下完成,因此一共有600個視頻序列,每個視頻又可以分割成4個子序列。KTH數(shù)據(jù)集的動作比較規(guī)范,同時采用固定鏡頭,數(shù)量對于目前的模型訓(xùn)練來說也比較豐富,所以對應(yīng)單純進(jìn)行動作識別的任務(wù)可以說是非常好用的數(shù)據(jù)集了。同時,KTH在GitHub的處理的開源程序有很多,可以隨時根據(jù)自己的需要進(jìn)行參考。
? ? ? ? ? ? ?
Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):
另一組比較經(jīng)典的數(shù)據(jù)集,數(shù)據(jù)同樣是固定鏡頭下的10個典型動作的視頻,同時數(shù)據(jù)集提供了一些帶有其他物體的動作作為干擾,可以測試模型的魯棒性。
官方同時提供了去除背景的程序,但是數(shù)據(jù)集的數(shù)據(jù)量比較少的90組常規(guī)數(shù)據(jù)和21組魯棒測試數(shù)據(jù),對于目前的模型訓(xùn)練來說顯得有些不足,不過對于本來就需要用小數(shù)據(jù)的模型比如遷移學(xué)習(xí)或者One-short Learning來說或許是適合的數(shù)據(jù)集。
? ? ? ? ? ? ?
Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6):
這組數(shù)據(jù)主要提供了同一個動作在多組鏡頭角度下的視頻數(shù)據(jù),可以說是簡單的動態(tài)背景。數(shù)據(jù)集提供了11名演員每人3次的13個日常動作,演員們自由選擇位置和方向。這個數(shù)據(jù)集的下載比較特殊,需要通過wget來下載。
UCF sports action dataset(?https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):
一個主要關(guān)于運(yùn)動的數(shù)據(jù)集,這個數(shù)據(jù)集也是質(zhì)量比較高的數(shù)據(jù)集,主要為13個常規(guī)的運(yùn)動動作。但是美中不足的同樣是每種數(shù)據(jù)的數(shù)量都比較少,不過這個數(shù)據(jù)集出了一些后續(xù)的數(shù)據(jù)集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。
? ? ? ?? ? ? ?
Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):
根據(jù)好萊塢電影鏡頭剪輯出來的數(shù)據(jù)集,這個數(shù)據(jù)集包含475個視頻,數(shù)據(jù)量上有一定的保證,但是這個數(shù)據(jù)集有個特點(diǎn)就是電影鏡頭往往不是單一的動作,而且很多動作同時混合在一起,同時背景由于鏡頭切換會有非連續(xù)的情況出現(xiàn),或許這樣的情況會對模型的訓(xùn)練造成影響。另外這組數(shù)據(jù)還在后續(xù)提供了更大數(shù)據(jù)量的數(shù)據(jù)集:https://www.di.ens.fr/~laptev/actions/hollywood2/。
? ? ? ? ? ? ?
總結(jié):以上就是對經(jīng)典數(shù)據(jù)集的介紹,經(jīng)典數(shù)據(jù)集的數(shù)據(jù)量普遍比較少,而且場景也相對簡單,而且提出的時間通常在2000前后,視頻的分辨率也普遍偏低,更詳細(xì)的介紹可以參考2014年的一篇綜述文章:A survey on vision-based human action recognition。
2、中等規(guī)模的數(shù)據(jù)集
HMDB(http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads):
這個數(shù)據(jù)集一共有51個類別,平均每個類別有100-200組數(shù)據(jù)。從數(shù)據(jù)量和類別上來看可以看到是具有比較豐富的數(shù)據(jù)的,但是這個數(shù)據(jù)集也是由一些電影鏡頭和日常的攝像機(jī)拍攝的視頻為主,所以背景相對復(fù)雜,同樣有動態(tài)鏡頭和切換鏡頭的視頻。因此這個數(shù)據(jù)集更適合目標(biāo)識別和目標(biāo)檢測。
? ? ? ? ? ? ?
SVW(http://cvlab.cse.msu.edu/project-svw.html?):這個數(shù)據(jù)集的特點(diǎn)是適合多種形式的任務(wù),可以作為目標(biāo)檢測也可以作為動作識別。目前這個數(shù)據(jù)官方提供了matlab程序來分割視頻(不過親身實(shí)踐后發(fā)現(xiàn)程序有一些bug需要調(diào)試),數(shù)據(jù)集一共包含30個種類的數(shù)據(jù),經(jīng)過分割后會有更多的類別可供動作識別來用。這個數(shù)據(jù)的背景也有一些是移動狀態(tài)下的,但是總體來說對于識別是中等規(guī)模數(shù)據(jù)集中比較合適的。
? ? ? ? ?
總結(jié):中等規(guī)模的數(shù)據(jù)集普遍具有相對與經(jīng)典數(shù)據(jù)集更多的數(shù)據(jù)量,而且在類別上也更多,這也體現(xiàn)了隨著計(jì)算規(guī)模的發(fā)展,可以建立的預(yù)測模型越來越復(fù)雜,可以處理更復(fù)雜的任務(wù)。
3、適用于深度學(xué)習(xí)的大規(guī)模數(shù)據(jù)集
ActivityNet(https://github.com/activitynet):Google在2016年出品的數(shù)據(jù)集,數(shù)據(jù)的來源主要是Youtube,帶有很強(qiáng)的深度學(xué)習(xí)背景,數(shù)據(jù)量很大,需要通過官方提供的程序自行下載,官網(wǎng)提供的數(shù)據(jù)僅為數(shù)據(jù)的Youtube地址。由于數(shù)據(jù)主要來源于Youtube,所以這個數(shù)據(jù)集相對更復(fù)雜,更適合目標(biāo)檢測。但是通過動作檢測提取后的數(shù)據(jù)更適合動作識別數(shù)據(jù)集。
? ? ? ? ? ? ?
20BN-jester(https://20bn.com/datasets/jester/v1#download):手勢識別數(shù)據(jù)集,視頻的背景比較固定,動作也更單純,所以更適合直接應(yīng)用與動作識別。同時,數(shù)據(jù)量和類別也很充足,更值得一提的是,數(shù)據(jù)是以jpeg存儲的,所以在讀取數(shù)據(jù)時甚至可以不通過OpenCV這樣的框架就可以處理數(shù)據(jù)。另外,網(wǎng)站還提供了基于物體的動作識別,這兩組數(shù)據(jù)對于實(shí)際的應(yīng)用場景會更有意義。
? ? ? ?
NTU RGB+D(http://rose1.ntu.edu.sg/datasets/actionrecognition.asp):
該數(shù)據(jù)集提供了豐富的數(shù)據(jù)量,并且視頻的背景相對固定,很適合進(jìn)行動作識別,同時數(shù)據(jù)的特點(diǎn)是同時提供了RGB,深度和骨骼視頻。數(shù)據(jù)集的全部數(shù)據(jù)高達(dá)1.3TB,并且后續(xù)有更豐富的數(shù)據(jù)集提供("NTU RGB+D 120"),但是這個數(shù)據(jù)的下載需要通過網(wǎng)站申請賬號,但是一天之內(nèi)會有回復(fù)(仔細(xì)填寫一般都可以通過)。
? ? ?
總結(jié):大規(guī)模數(shù)據(jù)集的特點(diǎn)主要是數(shù)據(jù)量比較大,類別也更多,并且網(wǎng)站上普遍不能提供直接的下載,而是通過提供類似爬蟲程序的方式下載。這類數(shù)據(jù)主要以近3-5年出現(xiàn)的數(shù)據(jù)集為主數(shù)據(jù)的大小普遍在GB甚至TB級,需要用深度模型和更強(qiáng)算力的機(jī)器來建立模型處理。
4、特定場景的數(shù)據(jù)集
以上都是一些比較有名的開源數(shù)據(jù)集,常常用來做算法的benchmark。那么針對一些實(shí)際的應(yīng)用場景,我們往往還需要一些特殊的數(shù)據(jù)集。這樣的小眾數(shù)據(jù)集有很多,我們不一一來收集做介紹,這里只是舉例介紹其中的一個。
Distracted Driver Detection是一個司機(jī)狀態(tài)檢測數(shù)據(jù)集,包含10個狀態(tài),共22425張圖 。大小4G。(數(shù)據(jù)文末回復(fù)關(guān)鍵詞可見)
? ? ? ? ? ? ?
數(shù)據(jù)集地址:
https//www.kaggle.com/c/state-farm-distracted-driver-detection/data
每年很多的交通事故的發(fā)生都是因?yàn)樗緳C(jī)沒有專注于自動駕駛,因此一個好的輔助駕駛系統(tǒng)不僅要關(guān)注車外的情況,也要時刻關(guān)注車內(nèi)駕駛員的情況。
這一個數(shù)據(jù)集來自kaggle平臺,包含了10種狀態(tài),如下:
c0:safe driving
c1:texting-right
c2:talking on the phone-right
c3:texting-left
c4:talking on the phone-left
c5:operating the ratio
c6:drinking
c7:reaching behind
c8:hair and makeup
c9:talking on passenger
一些樣本如下,每一類約2000多張圖像,共22425張圖。
??
最后總結(jié):
這篇文章主要對動作識別領(lǐng)域的一部分?jǐn)?shù)據(jù)集做了一些基本的介紹和探討,很多數(shù)據(jù)也沒有實(shí)際的處理和應(yīng)用,所以并不夠深入,但是也希望這篇文章能起到一個拋磚引玉的作用,更詳細(xì)的介紹可以直接去數(shù)據(jù)集的官網(wǎng)閱讀說明并下載研究。如何組織好自己的數(shù)據(jù)為算法提供支撐是做研究的關(guān)鍵一步,最后小編希望大家可以通過這些數(shù)據(jù)做出更精彩的成果。
文章申明
文章作者:周巖
責(zé)任編輯:周巖,貫軍
微信編輯:葡萄
文章由『運(yùn)籌OR帷幄』原創(chuàng)發(fā)布
備注:公眾號菜單包含了整理了一本AI小抄,非常適合在通勤路上用學(xué)習(xí)。
往期精彩回顧那些年做的學(xué)術(shù)公益-你不是一個人在戰(zhàn)斗適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(第一部分)備注:加入本站微信群或者qq群,請回復(fù)“加群”加入知識星球(4500+用戶,ID:92416895),請回復(fù)“知識星球”喜歡文章,點(diǎn)個在看
總結(jié)
以上是生活随笔為你收集整理的推荐一些动作识别数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卷积神经网络之 - Lenet
- 下一篇: ICLR 2020共计198篇开源代码论