【AI不惑境】数据压榨有多狠,人工智能就有多成功
大家好,今天開始就進入了專欄《AI不惑境》的更新了,這是第一篇文章,講述數據如何驅動深度學習。
進入到不惑境界,就是向高手邁進的開始了,在這個境界需要自己獨立思考。如果說學習是一個從模仿,到追隨,到創造的過程,那么到這個階段,應該躍過了模仿和追隨的階段,進入了創造的階段。從這個境界開始,講述的問題可能不再有答案,更多的是激發大家一起來思考。
作者&編輯 | 全能言有三
深度學習成功源于三駕馬車,模型,數據和硬件,這背后最核心的還是數據,深度學習正是因為學會了從數據中抽象知識,才能夠完成各種各樣的任務。
人工智能的發展,伴隨著對數據的使用方法的進化,今天就來聊聊。
?
1 數據與學習
我一直對學生說,如果你不能認識到數據對一個任務的重要性,不知道什么樣的數據能夠完成手中的任務,就不算真正的入門深度學習。
在此之前,你可以去沉迷于各種框架,技巧,項目。
我們回想一下,大部分人的成長是什么樣的過程。
(1) 一個剛剛出生的小孩,對這個世界的一切都表現出了無差別的興趣,接受各種信息就是成長。
(2) 在青少年時期,我們在家長和老師的帶領下,從背課文寫作業開始學習,大部分錯誤的行為會得到糾錯,正確的行為會得到獎勵。
(3) 隨著成長,有的人在自己工作的領域里熟練玩轉數據和模型,充分發掘和運用已有的知識,另一部分人所做的事情不再有答案,需要自己去探索新的規律,比如成立自己的公司,創作新的知識。
這幾個階段,背后的核心都是數據。
(1) 沒有知識的時候,所有已有的數據都是知識。
(2) 學習知識的時候,需要針對自己要學習的領域進行已有數據庫的選擇,想學語言就要背單詞庫,學數學就要做題庫,學音樂就要練樂譜,這時候用已有的數據進行學習。
(3) 使用知識的時候,就要調整自己學習到的知識用于新輸入的數據,在這個過程中,知識也隨之更新。
(4) 創造知識的時候,就要觀察社會和科學規律,從中進行總結,面對的就是沒有人整理過的數據。
可以毫不夸張的說,人一生大部分時間都用著統計學獲取,整理和分析數據,知識從數據中來,就像老子說的“道法自然”。
?
2 從有監督特征工程到無監督特征學習
說起無監督和有監督方法,仍然先舉一個依法治國和無為而治的對比。
依法治國核心就在于設定了各種各樣的法令讓大家遵循,而無為而治的核心就是不干預,讓國家在自然規律下運轉。很明顯后者是更高級的存在,也更難實現,不確定性大。
這個例子說的正是有監督和無監督方法在社會學的代表,從有監督到無監督是進步的,然后我們再看看智能系統的成長。
(1) 最初級的智能系統,其實就是用機器來使用專家的知識,依靠的是專家在某一個領域的大量的經驗積累。從20世紀60年代開始到80年代第二次人工智能浪潮,專家系統的研究是非常流行的,大家感興趣可以去了解。
(2) 隨著技術的發展,研究者發現專家系統實在是過于簡單和脆弱,于是研究出了一系列的模型,包括人工神經網絡/SVM等等。通過專家的經驗對數據進行預處理,完成知識的初步抽象(提取特征),之后丟給模型進行進一步的學習。與專家系統相比模型的復雜度大大提升,因此也可以開始解決更加復雜的問題,比如人臉的檢測,語音的識別。在20世紀末和21世紀初,有監督的機器學習方法得到了非常廣泛的應用和研究。
(3) 隨著大數據的爆發以及科學家的不斷探索,研究人員開始認識到通過專家的經驗對數據進行預處理是不合適的,數據的維度太高,專家不可能知道每一個任務到底需要怎樣的預處理,所以無監督特征學習方法誕生。對于一個無監督的特征學習系統,它的輸入應該盡可能是原始的數據,最大程度上保證信息的完整。至于學習的規則,仍然由專家來制定。
于是專家設計出各種各樣的模型架構和優化目標來指導系統從數據中進行學習,與有監督的特征工程的最大區別在于使用數據的方式,這一類方法也被稱為特征學習,于是我們有了傳統的機器學習算法和深度學習算法之分。
(4) 再往后發展,就需要機器自己創造模型,人類專家在其中所起的作用很小,甚至沒有,這也是人工智能的未來,或許社會發展到一定的階段,真的會有創造生命的那一天吧。
?
3 深度學習第一階段-學習特征
在深度學習發展的第一階段中,重點就是專家設計模型和優化策略,從數據中學習特征表達。
深度學習的成功很大程度上歸功于卷積神經網絡CNN模型架構,在圖像,語音等領域都取得了大大突破。CNN是一種無監督的特征學習模型,輸入原始數據,然后完成學習。關于CNN的基礎,大家可以去閱讀公眾號的相關文章。
在這個過程中,模型的架構固然會影響最終的結果,但是更重要的卻是數據集,沒有一個好的數據集,怎么都不可能訓練出好的模型。關于數據集的重要性,可以閱讀往期文章。
【數據】深度學習從“數據集”開始?
?
4 深度學習第二階段-學習模型
在深度學習發展的第二階段中,重點就是學習網絡模型本身和各種相關的策略。
在第一階段,典型的工作流程是準備數據,選擇模型框架,定義各類優化參數,然后開始訓練。
模型的架構需要研究人員手動設計,模型的各類訓練參數包括歸一化方法,初始化方法,激活函數等等也需要研究人員根據經驗進行調試。數據的使用,包括預處理,增強策略也需要研究人員進行嘗試。
但是技術發展到今天,研究人員開始從數據中學習模型本身。
4.1、AutoML自動模型結構設計技術
在深度學習發展的這些年里,研究人員用盡了各種手段去探索和設計各種各樣的網絡,研究網絡的深度,寬度,卷積的方式,淺層深層的信息流動和融合等,可以參見往期文章。
【完結】總結12大CNN主流模型架構設計思想?
然而到了今天,新的網絡設計方法開始流行,以Google Brain提出的AutoML為代表的技術,讓機器根據不同的任務(數據),自動搜索最佳的模型架構,數據驅動了模型的學習。
谷歌AutoML創造者Quoc Le:未來最好的人工智能模型將由機器生成?
4.2、AutoAugment自動數據增強策略
曾幾何時,我們采用各種各樣的幾何變換,顏色變換策略來進行數據增強。隨機裁剪,顏色擾動,都對提升模型的泛化能力起著至關重要的作用。
而如今,是時候尋找更好的方法了。以Google Brain提出的AutoAugment為代表的方法,使用增強學習對不同的任務學習到了各自最合適的增強方法,可以參考往期文章。
【技術綜述】深度學習中的數據增強方法都有哪些??
4.3、自動優化參數選擇
曾幾何時,我們設計,比較,分析sigmoid,tanh,relu等激活函數對網絡性能的影響。
而Google Brain提出的以Swish為代表的方法,在一系列一元函數和二元函數組成的搜索空間中,進行了組合搜索實驗,利用數據學習到了比ReLU更好的激活函數,可以參考往期文章。
【AI初識境】激活函數:從人工設計到自動搜索?
曾幾何時,我們還在爭論是最大池化好還是平均池化好,如今基于數據的池化策略已經被廣泛研究。
曾幾何時,我們還在不知道選擇什么樣的歸一化方法好,如今,基于數據的歸一化策略也在被研究。
曾幾何時,我們還在不知道選擇什么樣的優化方法好,如今,基于數據的優化方法也在被研究。
這些內容,可以參考公眾號的《AI初識境》,后面我們也會做更多詳細的解讀。
可以說,從模型的結構設計,模型的優化參數選擇,數據的使用策略,深度學習正在全面走向自動化。
很久以前,我們只會使用抽象好的數據。后來,我們學會了從數據中自己抽象特征。后來,我們發明了一個系統讓它去抽象特征。再到后來,我們想讓數據把系統也學了。
下期預告:模型的深度和寬度對性能的影響。
?
轉載文章請后臺聯系
侵權必究
比如網絡loss不正常,怎么調都不管用。
比如訓練好好的,測試就是結果不對。
bug天天有,深度學習算法工程師遇到的特別多,如果你想交流更多,就來有三AI知識星球實時提問交流吧,大咖眾多,總有能解決你問題的。
不惑境
AI白身境系列完整閱讀:
第一期:【AI白身境】深度學習從棄用windows開始
第二期:【AI白身境】Linux干活三板斧,shell、vim和git
第三期:【AI白身境】學AI必備的python基礎
第四期:【AI白身境】深度學習必備圖像基礎
第五期:【AI白身境】搞計算機視覺必備的OpenCV入門基礎
第六期:【AI白身境】只會用Python?g++,CMake和Makefile了解一下
第七期:【AI白身境】學深度學習你不得不知的爬蟲基礎
第八期:?【AI白身境】深度學習中的數據可視化
第九期:【AI白身境】入行AI需要什么數學基礎:左手矩陣論,右手微積分
第十期:【AI白身境】一文覽盡計算機視覺研究方向
第十一期:【AI白身境】AI+,都加在哪些應用領域了
第十二期:【AI白身境】究竟誰是paper之王,全球前10的計算機科學家
AI初識境系列完整閱讀
第一期:【AI初識境】從3次人工智能潮起潮落說起
第二期:【AI初識境】從頭理解神經網絡-內行與外行的分水嶺
第三期:【AI初識境】近20年深度學習在圖像領域的重要進展節點
第四期:【AI初識境】激活函數:從人工設計到自動搜索
第五期:【AI初識境】什么是深度學習成功的開始?參數初始化
第六期:【AI初識境】深度學習模型中的Normalization,你懂了多少?
第七期:【AI初識境】為了圍剿SGD大家這些年想過的那十幾招
第八期:【AI初識境】被Hinton,DeepMind和斯坦福嫌棄的池化,到底是什么?
第九期:【AI初識境】如何增加深度學習模型的泛化能力
第十期:【AI初識境】深度學習模型評估,從圖像分類到生成模型
第十一期:【AI初識境】深度學習中常用的損失函數有哪些?
第十二期:【AI初識境】給深度學習新手開始項目時的10條建議
AI不惑境系列完整閱讀:
第一期:【AI不惑境】數據壓榨有多狠,人工智能就有多成功
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI!
總結
以上是生活随笔為你收集整理的【AI不惑境】数据压榨有多狠,人工智能就有多成功的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【AI-1000问】为什么CNN中的卷积
- 下一篇: 【直播预告】计算机视觉中数据增强原理和实