机器学习及应用
機器學習簡介
機器學習是一類算法的總稱,這些算法企圖從大量歷史數據中挖掘出其中隱含的規律,并用于預測或者分類,更具體的說,機器學習可以看作是尋找一個函數,輸入是樣本數據,輸出是期望的結果,只是這個函數過于復雜,以至于不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函數很好地適用于“新樣本”,而不僅僅是在訓練樣本上表現很好。學到的函數適用于新樣本的能力,稱為泛化能力。
機器學習的步驟分為以下三步:
選擇一個合適的模型,這通常需要依據實際問題而定,針對不同的問題和任務需要選取恰當的模型,模型就是一組函數的集合。
判斷一個函數的好壞,這需要確定一個衡量標準,也就是我們通常說的損失函數,損失函數的確定也需要依據具體問題而定,如回歸問題一般采用歐式距離,分類問題一般采用交叉熵代價函數。
找出“最好”的函數,如何從眾多函數中最快的找出“最好”的那一個,這一步是最大的難點,做到又快又準往往不是一件容易的事情。常用的方法有梯度下降算法,最小二乘法等和其他一些技巧。
學習得到“最好”的函數后,需要在新樣本上進行測試,只有在新樣本上表現很好,才算是一個“好”的函數。
機器學習分類
按任務類型分,機器學習模型可以分為回歸模型、分類模型和結構化學習模型。回歸模型又叫預測模型,輸出是一個不能枚舉的數值;分類模型又分為二分類模型和多分類模型,常見的二分類問題有垃圾郵件過濾,常見的多分類問題有文檔自動歸類;結構化學習模型的輸出不再是一個固定長度的值,如圖片語義分析,輸出是圖片的文字描述。
從方法的角度分,可以分為線性模型和非線性模型,線性模型較為簡單,但作用不可忽視,線性模型是非線性模型的基礎,很多非線性模型都是在線性模型的基礎上變換而來的。非線性模型又可以分為傳統機器學習模型,如SVM,KNN,決策樹等,和深度學習模型。
按照學習理論分,機器學習模型可以分為有監督學習,半監督學習,無監督學習,遷移學習和強化學習。當訓練樣本帶有標簽時是有監督學習;訓練樣本部分有標簽,部分無標簽時是半監督學習;訓練樣本全部無標簽時是無監督學習。遷移學習就是就是把已經訓練好的模型參數遷移到新的模型上以幫助新模型訓練。強化學習是一個學習最優策略,可以讓本體在特定環境中,根據當前狀態,做出行動,從而獲得最大回報。強化學習和有監督學習最大的不同是,每次的決定沒有對與錯,而是希望獲得最多的累計獎勵。
機器學習的相關算法
監督學習
決策樹
決策樹是一個決策支持工具,它使用樹形圖或者決策模型以及可能性序列,包括偶然事件的結果、資源成本和效用。
從業務決策的角度來看,決策樹是人們必須了解的最少的是/否問題,這樣才能評估大多數時候做出正確決策的概率。作為一種方法,它允許你以結構化和系統化的方式來解決問題,從而得出合乎邏輯的結論。
樸素貝葉斯分類
樸素貝葉斯分類器是一類簡單的概率分類器,它基于貝葉斯定理和特征間的強大的(樸素的)獨立假設。
最小二乘法
最小二乘法是一種計算線性回歸的方法。
邏輯回歸
邏輯回歸是一個強大的統計學方法,它可以用一個或多個解釋變量來表示一個二項式結果。它通過使用邏輯函數來估計概率,從而衡量類別依賴變量和一個或多個獨立變量之間的關系,后者服從累計邏輯分布。
支持向量機
SVM是二進制分類算法。給定N維坐標下兩種類型的點,SVM生成(N-1)維的超平面來將這些點分成兩組。假設你在平面上有兩種類型的可以線性分離的點,SVM將找到一條直線,將這些點分成兩種類型,并且這條直線盡可能遠離所有這些點。
集成方法
集成方法是學習算法,它通過構建一組分類器,然后通過它們的預測結果進行加權投票來對新的數據點進行分類。
無監督學習
聚類方法
聚類是將一系列對象分組的任務,目標是使相同組(集群)中的對象之間比其他組的對象更相似。
主成分分析
PCA是一個統計學過程,它通過使用正交變換將一組可能存在相關性的變量的觀測值轉換為一組線性不相關的變量的值,轉換后的變量就是所謂的主分量。
奇異值分解
在線性代數中,SVD是復雜矩陣的因式分解。
獨立成分分析
ICA是一種統計技術,主要用于揭示隨機變量、測量值或信號集中的隱藏因素。ICA對觀測到的多變量數據定義了一個生成模型,這通常是作為樣本的一個大的數據庫。在模型中,假設數據變量由一些未知的潛在變量線性混合,混合方式也是未知的。潛在變量被假定為非高斯分布并且相互獨立,它們被稱為觀測數據的獨立分量。
機器學習的應用
最近幾年機器學習以及人工智能的子領域愈來愈受歡迎,很多應用機器學習方法的技術應用到生活中,下面是常見的機器學習的應用領域:
判斷垃圾郵件
對新聞類別進行分類
判斷文本表達情感
人臉識別
網絡入侵檢測
物聯網入侵檢測
信用評分
預測產品收入
深度學習
簡介
深度學習是機器學習的一種,而機器學習是實現人工智能的必經路徑。深度學習的概念源于人工神經網絡的研究,含多個隱藏層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。研究深度學習的動機在于建立模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本等。
深度學習是一類模式分析方法的統稱,就具體研究內容而言,主要涉及三類方法:
(1)基于卷積運算的神經網絡系統,即卷積神經網絡(CNN)。
(2)基于多層神經元的自編碼神經網絡,包括自編碼以及近年來受到廣泛關注的稀疏編碼兩類。
(3)以多層自編碼神經網絡的方式進行預訓練,進而結合鑒別信息進一步優化神經網絡權值的深度置信網絡。
總結
- 上一篇: 创业基础(第三章:创业机会及其识别与评价
- 下一篇: 《怪谈研究所》汽车人报恩通关攻略