【数据】短视频识别,都有那些行业标准?
楊皓博
大三在讀,計算機視覺愛好者
作者 | 楊皓博(微信號Midlurker2017)
編輯 | 楊皓博/言有三
當前深度學習中靜態圖像識別已經做得相當好了,讓AI理解視頻內容則更加困難,是當前學術界和工業界的研究熱點,本文將介紹一些短視頻類數據集。
01
AI Challenger 全球AI挑戰賽
官網地址:https://challenger.ai/,從2017年開始。
2018年全球AI挑戰賽是由創新工場、搜狗、美團點評、美圖聯合創辦的,里面包括多個NLP、計算機視覺項目,其中就有 ’短視頻實時分類競賽’。
競賽提供的專門的短視頻數據集共包含20萬條短視頻,涵蓋舞蹈、健身、唱歌等63類流行元素。大部分視頻的長度是在5-15秒。并且視頻是多標簽分類體系,標簽信息包含視頻主體、場景、動作等多個維度,標注信息將盡量包含視頻中展現的所有元素,每條視頻有1-3個標簽。此數據集分為訓練集(120K)、驗證集(30K)、測試集A(30K)、測試集B(30K)。
相較于傳統視頻數據集來說,該數據集更具特色。
1.?從視頻來源上講,此數據集視頻采集設備多為手機且比例多為豎屏;
2.?從視頻形式上講,數據集中的很多視頻使用了短視頻特效,并包含更多視頻快進、剪輯等操作;
3.?從視頻內容上講,數據集包含了更多人物中心化的自拍短視頻內容。所有這些特點使本數據集在體現以用戶為導向的內容生產趨勢上得以先人一步。
4.?預覽:左圖是:寶寶+彈鋼琴,右圖:寶寶+跳舞
02
HMDB
數據集鏈接:
http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads,發布于2011年
HMDB是布朗大學研究小組的項目,是一個人類動作視頻數據集。里面的數據大部分來自于電影,小部分來自于開源數據庫,來源地址如Prelinger存檔、YouTube、google視頻等等,包含6849段視頻剪輯,51個人類動作類別,每類動作至少包含 101段視頻剪輯,分辨率為320*240,共2G。動作主要分為五類:
1.?面部動作:微笑、大笑、咀嚼。
2.?面部操作與對象操作:吸煙、吃、喝。
3.?一般的身體動作:拍手、跳、倒立
4.?與對象交互動作:抽出寶劍、運球、高爾夫。
5.?人體動作:擊劍、擁抱、親吻。?
03
UCF101
數據集鏈接:http://crcv.ucf.edu/data/UCF101.php,發布于2012年。
UCF101是目前動作類別數、樣本數最多的數據集之一,主要包括在自然環境下101種人類動作類別如跳、拍手、打羽毛球等等,也正因為類別眾多加上UCF101在動作的采集上具有非常大的多樣性,如相機運行、外觀變化、姿態變化、物體比例變化、背景變化等等,所以也成為了當前難度最高的動作類數據集挑戰之一。該數據集有13000個剪輯、總共27個小時的視頻。視頻都來自于Youtube上用戶上傳視頻,其中主要包含5大類動作:人與物體互動、人體動作、人與人互動、樂器演奏、體育運動。
04
ActivityNet
數據集鏈接:
http://www.merl.com/demos/merl-shopping-dataset,發布于2016年。
ActivityNet是一個大規模行為識別競賽,自CVPR2016開始,今年是該競賽的第三屆。在最新1.4版本中,ActivityNet提供了203個活動類別的樣本,每個類平均有137個未修剪的視頻,總共有20K多個Youtube視頻,其中訓練包括10K多個視頻,驗證與測試各包含5K個視頻。每個視頻平均有1.41個行為標注,共計849個小時視頻時長。
以2017年競賽為例(使用1.3版本)在ActivityNet將進行5項不同的任務,分別是
1.untrimmed video classification (ActivityNet dataset)
2.trimmed video classification (Kinetics dataset)
3.temporal action proposal (ActivityNet dataset)
4.temporal action localization (ActivityNet dataset)
5.Dense-Captioning Events in Videos (ActivityNet Captions)
該競賽總共有五個任務,數據來源于三個不同的公開數據集:ActivityNet,ActivityNet?Captions?和Kinetics,其中基于ActivityNet數據集的三個任務側重于proposal,而另外兩項更加側重于localization。感興趣的同學可以鏈接去了解一下。
05
YouTube-8M
數據集鏈接:https://research.google.com/youtube8m/,發布于2016年。
YouTube-8M是Google公布的一個大型的視頻數據集,這個數據集在最開始包含8M個YouTube視頻鏈接,此后經過不斷清洗篩選在今年5月份已經縮短到了6.1M個視頻,視頻的長度大于兩分鐘小于9分鐘。這些視頻集進行了video-level(視頻層級)的標注,平均每個視頻含有3.0個標簽,標注為3862種Knowledge Graph?entities(知識圖譜類別),包括粗粒度和細粒度類別,這些類別已被半自動策劃并由3個評估者人工驗證視頻的識別度。每個類別至少有200個相應的視頻示例,平均有3552個訓練視頻。
其中三個最受歡迎的類別是游戲、視頻游戲和車輛分別用780K,540K和410K個訓練樣例。最少見的是Cylinder和Mortar,分別有123和127個訓練視頻。
這些實體分為24個高級垂直行業,最常見的是藝術和娛樂(33K訓練視頻),最不常見的是財務(6K訓練視頻)。
06
結語
市面上還有一些其他的開源短視頻數據集,在這里不一一贅述了,大家感興趣可以自己去調研。
如果想了解更多,歡迎關注知乎《有三AI學院》。
我們的計算機視覺公開課《AI 圖像識別項目從入門到上線》上線了,將講述從零基礎到完成一個實際的項目到微信小程序上線的整個流程,歡迎交流捧場。
十月開始,我們有三AI學院開啟了“稷”劃和“濟”劃,幫助想入行以及想取得更多實戰經驗的同學。內容覆蓋從自動駕駛到美顏直播等領域的實戰項目,從圖像基礎到深度學習理論的系統知識,歡迎關注。
有三AI“【濟】劃”,從圖像基礎到深度學習
有三AI“十一月【稷】劃”,從調參大法到3D重建
有三AI“十月【稷】劃”,從自動駕駛到模型優化
《有三說深度學習》網易公開課已經上線,歡迎關注
如果想加入我們,后臺留言吧
轉載后臺留言,侵權必究
微信
Longlongtogo
公眾號內容
1 圖像基礎|2 深度學習|3 行業信息
有三精選
【總結】這半年,有三AI都做了什么
【技術綜述】“看透”神經網絡
【有三說圖像】圖像簡史與基礎
【技術綜述】閑聊圖像分割這件事兒
【技術綜述】一文道盡softmax loss及其變種
往期學員分享
【技術綜述】人臉表情識別研究
一課道盡人臉圖像算法,你值得擁有
如何降低遮擋對人臉識別的影響
【技術綜述】人臉顏值研究綜述
往期開源框架
【pytorch速成】Pytorch圖像分類從模型自定義到測試
【paddlepaddle速成】paddlepaddle圖像分類從模型自定義到測試
【caffe速成】caffe圖像分類從模型自定義到測試
【tensorflow速成】Tensorflow圖像分類從模型自定義到測試
往期行業解讀
【行業進展】國內自動駕駛發展的怎么樣了?
【行業進展】AI:新藥研發的新紀元
【行業進展】哪些公司在搞“新零售”
【行業趨勢】國內這10個AI研究院,你想好去哪個了嗎?
往期模型解讀
【模型解讀】“全連接”的卷積網絡,有什么好?
【模型解讀】“不正經”的卷積神經網絡
【模型解讀】resnet中的殘差連接,你確定真的看懂了?
【模型解讀】pooling去哪兒了?
總結
以上是生活随笔為你收集整理的【数据】短视频识别,都有那些行业标准?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【技术综述】深度学习新手如何开始合适的“
- 下一篇: 【研究院】浅析小米与它的AI生态