【杂谈】关于数据和模型,初学者极容易忽视的两个问题!
說起深度學(xué)習(xí)與CNN,想必大家很熟悉;說起計算機視覺中的目標(biāo)檢測等各個方向,相比大家平時也接觸過不少東西了;不過有兩個小的方向,雖然相關(guān)的論文、項目、甚至研究方法都不多,卻是做研究與實際項目落地中非常重要的技術(shù),那就是對數(shù)據(jù)使用方法的掌握與模型的理解,這是容易被大家忽視的問題,下面我們簡單說道說道。
關(guān)于數(shù)據(jù)你應(yīng)該知道
大數(shù)據(jù)本來就是一個專門的學(xué)科,不過我們這里說的不是專指大數(shù)據(jù),而是指在深度學(xué)習(xí)項目中數(shù)據(jù)的使用,至少有好幾個方向有非常多的內(nèi)容值得掌握。
數(shù)據(jù)的獲取
數(shù)據(jù)是深度學(xué)習(xí)系統(tǒng)的糧食,當(dāng)前的大部分工業(yè)落地模型,都依賴于大量數(shù)據(jù)進行學(xué)習(xí),所以獲取是第一步!如果沒有超越百萬級圖片數(shù)量的ImageNet數(shù)據(jù)集的整理提出,深度學(xué)習(xí)計算機視覺算法的落地進程肯定會被推遲!
那ImageNet數(shù)據(jù)集從何而來!靠的就是數(shù)據(jù)爬蟲和在線的眾籌標(biāo)注平臺!其實大部分圖片開源數(shù)據(jù)集都是依靠數(shù)據(jù)爬蟲獲取然后進行整理的,所以爬蟲是你必須掌握的。
數(shù)據(jù)的整理與標(biāo)注
隨著各類基礎(chǔ)算法的成熟,決定模型能否上線的關(guān)鍵,很大程度上取決于數(shù)據(jù)的質(zhì)量以及數(shù)據(jù)是否被正確地使用!你和大廠差的往往并不是算法的先進性,而是數(shù)據(jù)的多少與使用方法!拿到數(shù)據(jù)之后怎么用,絕對是一個必須要好好思考的問題。舉一個簡單的例子,數(shù)據(jù)的來源是很廣泛的,不同類型數(shù)據(jù)的難度不一樣,我們在公開數(shù)據(jù)集中經(jīng)常會看到hard,medium,easy這樣的分級,而在我們的項目中,也是經(jīng)常需要這樣去進行分級的,不同類型的數(shù)據(jù)其實不能簡單地就混在一起使用,這個問題你有好好想過嗎?有真的去做了嗎?
沒有算法能取得百分之百的精度,我們往往是用簡單的數(shù)據(jù)先進行方案認證,中等難度的數(shù)據(jù)精度作為上線標(biāo)準(zhǔn),而高難度的數(shù)據(jù)作為后續(xù)的技術(shù)攻關(guān),不能因為無法解決一些超級難的案例而否定模型,數(shù)據(jù)的整理與使用絕對是非常需要工程經(jīng)驗的。
另外一方面,數(shù)據(jù)的標(biāo)注雖然不算是高技術(shù)壁壘的活兒,但如何提高效率,顯然也是值得重視的,相關(guān)的行業(yè),可并不小!國內(nèi)有很多的數(shù)據(jù)標(biāo)注基地和公司,比如百度山西數(shù)據(jù)標(biāo)注基地。
自動化的標(biāo)注工具與平臺,也是一個非常重要的小方向,像NVIDIA和百度這樣的大公司,就從事相關(guān)的研究。
數(shù)據(jù)增強使用
數(shù)據(jù)增強方法的重要性,我想已經(jīng)無須再做過多的介紹了,因為做過算法落地、打過競賽的朋友一定深有體會!同樣的模型,因為數(shù)據(jù)使用方法的不同,精度可能天差地別;數(shù)據(jù)增強做得好,100張圖片也能浪;數(shù)據(jù)增強做不好,模型妥妥的過擬合;數(shù)據(jù)增強沒選對方法,模型上線肯定出問題。
數(shù)據(jù)增強方法眾多,從有監(jiān)督到無監(jiān)督,從單樣本到多樣本,從基于規(guī)則到自動化,是一個需要系統(tǒng)性掌握的領(lǐng)域。
再回過頭來看,你對數(shù)據(jù)的掌握,有多么熟練呢,平時做相關(guān)的工作時,花了多少心思重視數(shù)據(jù)相關(guān)的使用技巧呢?
如果覺得有所缺失,我們平臺推出了《深度學(xué)習(xí)之?dāng)?shù)據(jù)使用》的課程,主講老師為言有三,目標(biāo)是幫助大家掌握好深度學(xué)習(xí)中的數(shù)據(jù)使用,課程價格只有99,頂一頓火鍋。
本課程內(nèi)容包括數(shù)據(jù)的獲取,數(shù)據(jù)的整理,數(shù)據(jù)的標(biāo)注,數(shù)據(jù)增強,數(shù)據(jù)的分析等領(lǐng)域,覆蓋了深度學(xué)習(xí)中數(shù)據(jù)使用的各個方向,大綱如下:
詳細的課程內(nèi)容介紹,請點擊下圖跳至閱讀:
關(guān)于理解模型你應(yīng)該知道
深度學(xué)習(xí)模型使用的門檻雖然低,但模型參數(shù)多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,模型結(jié)構(gòu)的設(shè)計以及訓(xùn)練過程中超參數(shù)的調(diào)試,都非常依賴于經(jīng)驗。結(jié)果不好,是數(shù)據(jù)的問題還是模型的問題,往往分析起來比較困難。如果是數(shù)據(jù)問題,那到底是什么問題?如果只憑經(jīng)驗,沒有很科學(xué)的分析工具,仍然會有盲人摸象的感覺。
提起模型,我們不能僅僅知道模型的名字和大小,那太粗淺了,先了解它,才能用好它!對模型進行相關(guān)的分析是非常重要的,至少有幾個方向需要掌握。
可視化分析
模型結(jié)構(gòu)的可視化是基本操作、我們不可能只依靠代碼去想象模型的拓撲結(jié)構(gòu),各個網(wǎng)絡(luò)層的連接方式與參數(shù)細節(jié)配置,需要能夠隨時進行可視化,這樣方便我們了解模型調(diào)整時的變化。
模型的權(quán)重以及所學(xué)習(xí)到的特征,對于了解模型的內(nèi)在是必備技術(shù)。這樣我們就能知道模型到底學(xué)習(xí)到了什么特征,是不是我們期望的特征,從而不再僅僅將模型當(dāng)作是一個黑盒子來使用。
復(fù)雜度分析
深度學(xué)習(xí)模型很復(fù)雜,那到底有多復(fù)雜,用什么指標(biāo)來衡量,怎么計算,有什么工具可以使用呢?
怎么更精確地統(tǒng)計模型的速度,怎么分析模型的速度瓶頸在哪個地方從而進行后續(xù)的優(yōu)化,對優(yōu)化模型來說,這都是需要考慮的問題!這些你存儲了多少相關(guān)的技能呢?
如果覺得有所缺失,我們平臺推出了《深度學(xué)習(xí)之模型分析》的課程,主講老師為言有三,目標(biāo)是幫助大家掌握好深度學(xué)習(xí)模型分析的常用方法。課程價格只有99,頂一頓火鍋。
本課程包括模型分析的幾個重要方向的理論與實踐(基于Pytorch),大綱如下:
詳細的課程內(nèi)容介紹,請點擊下圖跳至閱讀:
尾記
萬丈高樓平地起,雖然現(xiàn)在的信息非常繁雜,我們平時在工作和學(xué)習(xí)過程中面臨著各種快速出結(jié)果的KPI,但是磨刀不誤砍柴工,只有基礎(chǔ)扎實,才能游刃有余!我們一直強調(diào)大家要系統(tǒng)性地掌握好知識,而不是練快刀,因為走捷徑式的領(lǐng)先,終將后繼乏力!
以上的兩門課程目前加起來一共6個多小時,屬于我們平臺最基礎(chǔ)最便宜的課程,在目前的每一個CV季劃大專欄中都會配置,就是希望大家無論做什么方向,都要掌握好這兩項基本技術(shù)。
其他相關(guān)的基礎(chǔ)課程,大家還可以關(guān)注CV基礎(chǔ)合集,包括《深度學(xué)習(xí)之圖像分類-理論實踐篇》,《深度學(xué)習(xí)之目標(biāo)檢測-理論實踐篇》,《深度學(xué)習(xí)之圖像分割-理論實踐篇》,共計50余小時,深度和寬度,都足夠讓大家修煉好內(nèi)功了。
詳細的課程內(nèi)容介紹,請點擊下圖跳至閱讀:
轉(zhuǎn)載文章請后臺聯(lián)系
侵權(quán)必究
往期精選
【視頻課】超全深度學(xué)習(xí)路線圖,有三AI所有免費與付費的視頻課程內(nèi)容匯總!
總結(jié)
以上是生活随笔為你收集整理的【杂谈】关于数据和模型,初学者极容易忽视的两个问题!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【视频课】深度掌握模型剪枝+模型量化+知
- 下一篇: 【视频课】模型剪枝+模型量化+知识蒸馏典