深度学习笔记1
? ? 自學筆記
第1章 引言
? ? 人工智能真正的挑戰在于解決那些對人類來說容易執行、但很難形式化描述的任務。如何將非形式化的知識傳給計算機呢?AI深度學習可以讓計算機從經驗中學習,并根據層次化的概念體系來理解世界。一些人工智能項目力求將關于世界的知識用形式化的語言進行編碼(hard-code),使計算機可以使用邏輯推理規則來自動地理解這些形式化語言中的聲明。人們設法設計足夠復雜的形式化規則來準確的描述世界,這些項目沒有取得巨大成功。
? ?? 依靠硬編碼的知識體系無法解決事物之間的內在聯系問題,AI需要具備自己獲取知識的能力,從原始數據提取模式的能力稱為機器學習。
? ?? 人工智能一般解決方式:先選取一個合適的特征集,然后將這些特征提供給簡單的機器學習算法。然而,很多任務,我們很難知道應該提取哪些特征。解決這個問題的的途徑之一就是使用機器學習來發掘表示本身,不僅僅把表示映射到輸出。這種方法稱之為表示學習(representation learning)。
? ? 表示學習的典型例子是自編碼器(autoencoder),自編碼器由一個編碼器函數和解碼器函數組成。編碼器將輸入數據轉換為一種不同的表示,解碼器將這個新的表示轉換回原來的形式。
? ?? 當設計特征或設計用于學習特征的算法時,目標是分離出能夠解釋數據的變差因素,然而,多個變差因素是同時存在的,這需要我們理清變差因素并忽略我們不關心的因素。從原始數據提取高層次、抽象的特征是非常困難的。
? ? 深度學習(deep learning)可以通過較簡單的概念構建復雜的概念。典型例子如:前饋深度網絡或多層感知機(multilayer perceptron,MLP)。多層感知機僅僅是將一組輸入值映射到輸出值的的數學函數。學習數據的正確表示是解釋深度學習的一個視角,另一個視角是深度促使計算機學習一個多步驟計算機程序。
? ? 主要有兩種度量模型深度的方式:1、基于評估架構所需執行的順序指令的數目;2、在深度概念模型中將描述概念彼此如何關聯的圖的深度。
? ? 深度學習是通向人工智能的途徑之一,是機器學習中一種能夠使計算機系統從經驗和數據中得到提高的技術,具有強大的能力和靈活性,它將大千世界表示為嵌套的層次感念體系。
1.1 深度學習的歷史
? ? 一般認為,深度學習經歷3次發展浪潮。20世紀40年代到60年代,深度學習的雛形出現控制論(cybernetices)中;20世紀80年代到90年代,深度學習表現為連結主義(connectionism);直到2006年,才真正以深度學習之名復習。
?????現代術語“深度學習”超越了目前機器學習模型的神經科學觀點,它訴諸于學習多層次組合原理。20世紀50年代,感知機(Rosenblatt)成為第一個能夠根據每個類別的輸入樣本來學習權重的模型。與此同時,自適應線性單元(adaptive linear element,ADALINE)簡單地返回函數本身的值來預測一個實數。用于調節ADALINE權重的訓練算法被稱為隨機梯度下降。基于感知機和ADALINE中使用的函數模型稱為線性模型。然而線性模型無法學習異或函數,這導致神經網絡熱潮第一次大衰退。
? ? 神經科學是深度學習研究的一個重要靈感來源,但它不是該領域的主要指導,主要原因是我們根本沒有足夠關于大腦的信息作為指導去使用它,我們現在甚至連大腦最簡單、最深入研究的部分都還遠遠沒有理解。
? ? 20世紀80年代,神經網絡研究第二次浪潮在很大程度上伴隨被稱為聯結主義或并行分布處理潮流而出現的。聯結主義的中心思想是,當網絡將大量簡單的計算單元連接在一起時可以實現智能表現。分布表示的思想是:系統的每一個輸入都應該由多個特征表示,并且每一個特征都應該參與到多個可能輸入的表示。
? ? 20世紀90年代,研究人員在使用神經網絡進行序列建模的方面取得了重要進展。對長序列進行建模引入長短期記憶(LSTM),來解決梯度消失或梯度爆炸的難題。
? ? 20世紀90年代中期,基于神經網絡的AI研究不能實現投資者的期望,于此同時,機器學習中核方法和圖模型在取得突破,導致神經網絡熱潮第二次衰退。
? ? 2006年,Geoffrey Hinton表明“深度信念網絡”的神經網絡可以使用一種稱為“貪婪逐層預訓練”的策略來有效訓練。神經網絡的這一次浪潮普及了“深度學習”這一術語。神經網絡浪潮的重點開始著眼于新的無監督學習技術和深度模型在小數據集的泛化能力,但目前的興趣點仍是比較傳統的監督學習算法和深度模型充分利用大型標注數據集的能力。
1.2 與日俱增的數據量
????20世紀90年代深度學習就已經成功用于商業應用,但通常被視為只有專家才可以使用的藝術。不可否認,要從一個深度學習算法獲得良好的性能需要一些技巧,幸運的是,隨著數據量的增加,所需的技巧正在減小。截至2016年,一個粗略的經驗法則是,監督學習算法在每類給定約5000個標注樣本情況下將達到可以接受的性能,當至少有1000萬標注樣本是數據用于訓練時,它將達到或超過人的表現。
深度學習在計算機視覺、語音和音頻處理、自然語言處理、機器人技術、生物信息學和化學、電子游戲、搜索引擎、網絡廣告和金融取得巨大成功。深度學習的另一個最大的成就是其在強化學習(reinforcement learning)領域的擴展,在強化學習中,一個自主的智能體必需在沒有人類操作者指導的情況下,通過試錯來學習執行任務。
????
????
????
總結
- 上一篇: GAN实现半监督学习
- 下一篇: 机器学习基础自学笔记2