如何系统性掌握深度学习中的数据使用
數據是深度學習系統的輸入,對深度學習的發展起著至關重要的作用,但是又容易被很多人忽視,尤其是缺少實戰的理論派。
今天便來談談這個問題,同時介紹一個好的學習社區供大家討論與提升。
文/編輯 | 言有三?
1 需要掌握哪些內容
在公司實戰項目做久了的同學,應該都有這個感慨。吾本欲在算法領域大展拳腳,奈何清洗和增加數據就可以讓模型性能突飛猛進。我們確實會花費很多的時間去折騰數據,總的來說包括:
(1) 獲取數據。
(2) 整理數據。
(3) 分析數據。
(4) 使用數據。
(5) 迭代數據。
所謂獲取數據,包括公開數據集的搜索和下載,使用爬蟲等工具從零建立數據集。
所謂整理數據,包括格式化,重命名,去重,標注等。
所謂分析數據,包括數據的統計和可視化分析等。
所謂使用數據,包括在開源框架中數據集的接口定義,數據增強策略的使用等。
所謂數據迭代,主要就是針對自己的任務不斷調整數據以優化模型等。
2 有三AI已經做了什么
作為這么重要的一個課題,我們當然已經分享過很多的內容了,下面匯總一下。
2.1 數據獲取
關于數據獲取問題,我們給大家介紹過許多領域的數據集以及數據集對深度學習的影響,相關文章如下:
【技術綜述】一文道盡“人臉數據集”
【數據集】自動駕駛都有什么測試基準?
【數據集】一文道盡醫學圖像數據集與競賽
【數據】短視頻識別,都有那些行業標準?
【數據】深度學習從“數據集”開始
也多次介紹過爬蟲算法,推薦過不少好的項目,相關文章如下:
【雜談】深度學習必備,各路免費爬蟲一舉拿下
【AI白身境】學深度學習你不得不知的爬蟲基礎
2.2 數據整理
關于數據整理問題,我們在開源GitHub項目yousan.ai中提供了整套的python和shell腳本,覆蓋圖像遍歷,重命名,隨機打亂,去重等功能。
2.3?數據分析
關于數據分析問題,我們已經多次介紹過數據可視化相關的內容,相關文章如下:
【AI白身境】深度學習中的數據可視化
【技術綜述】“看透”神經網絡
2.4?數據使用
關于數據使用問題,我們已經在yousan.ai中對12個常用的深度學習開源項目如何從頭開始定義數據讀取和增強API進行了詳細的解讀,相關文章如下
【完結】給新手的12大深度學習開源框架快速入門項目
【技術綜述】深度學習中的數據增強方法都有哪些?
【開源框架】一文道盡主流開源框架中的數據增強
關于數據迭代,每一個領域的做法都不同,因此我們在公眾號還沒有相關內容,后續會在知識星球中針對具體的任務進行講解。
3 哪里有更多更新
以上就是全部了嗎?當然遠遠不是。有三在知識星球平臺有更多內容,覆蓋珍貴的數據集下載,相關經驗分享。
3.1 經驗分享
有一些非常干貨的內容,有三只會提供給咱們付費成員,比如數據增強的實戰經驗,以后還會有更多。
3.2 數據集分享和下載
在有三AI知識星球中會對各大領域中的數據集進行系統性介紹,另外為了方便大家收藏閱讀,有三將分享做成了卡片的形式,并提供了下載鏈接,案例如下:
有三AI知識星球-數據集
Distracted Driver Detection
Distracted Driver Detection是一個司機狀態檢測數據集,包含10個狀態,共22425張圖 。
作者/編輯 言有三
數據集地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data,發布于2016年。
每年很多的交通事故的發生都是因為司機沒有專注于自動駕駛,因此一個好的輔助駕駛系統不僅要關注車外的情況,也要時刻關注車內駕駛員的情況。
這一個數據集來自于Kaggle平臺,該包含了10種狀態,如下:
c0: safe?driving
c1: texting - right
c2: talking on the phone - right
c3: texting - left
c4: talking on the phone - left
c5: operating the radio
c6: drinking
c7: reaching behind
c8: hair and makeup
c9: talking to passenger
一些樣本如下,每一類約2000多張圖像,共22425張圖。
現在咱們星球已經覆蓋非常多的重磅數據集下載,覆蓋大型數據集如ImageNet,人臉各個方向的數據集,自動駕駛各方向數據集,美學各方向數據集,人像各個方向數據集,3D數據集,動植物各個方向數據集,仔細瞧瞧,一定會有驚喜!
同時小伙伴們也會來經常分享自己的數據集,相信在大家的努力下,這里東西的價值無法想象。
預告一下,有三后面還會在星球內部搞比賽,提供自己標注的數據集,敬請期待。
4 最后要說的話
數據的使用的確是一門經驗活,很多的時候我們都卡在了這里,甚至連數據集的下載都搞不定。
因此,我們在有三AI知識星球中提供相關分享,更提供相關的經驗交流,如果真的需要,就加入有三AI知識星球,一起討論學習吧。
另外,數據集只是有三AI知識星球中的一個板塊,還有很多重磅,比如網絡結構設計:如何系統性掌握深度學習模型設計和優化,相信你不會失望。
轉載文章請后臺聯系
侵權必究
有三AI知識星球官宣,BAT等大咖等你來撩
揭秘7大AI學習板塊,這個星球推薦你擁有
有三AI 1000問回歸,備戰秋招,更多,更快,更好,等你來戰!
【知識星球】做作業還能贏獎金,傳統圖像/機器學習/深度學習盡在不言
【知識星球】顏值,自拍,美學三大任務簡介和數據集下載
【知識星球】數據集板塊重磅發布,海量數據集介紹與下載
【知識星球】貓貓狗狗與深度學習那些事兒
【知識星球】超3萬字的網絡結構解讀,學習必備
【知識星球】視頻分類/行為識別網絡和數據集上新
【知識星球】3D網絡結構解讀系列上新
【知識星球】動態推理網絡結構上新,不是所有的網絡都是不變的
【知識星球】Attention網絡結構上新,聚焦才能贏
【知識星球】幾個人像分割數據集簡介和下載
【知識星球】總有些骨骼輕奇,姿態妖嬈的模型結構設計,不知道你知不知道,反正我知道一些
【知識星球】從SVM對偶問題,到疲勞駕駛檢測,到實用工業級別的模型壓縮技巧
總結
以上是生活随笔為你收集整理的如何系统性掌握深度学习中的数据使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像分类】 基于Pytorch的细粒度
- 下一篇: 【知识星球】softmax损失相关的小问