机器学习-机器学习概论(入门机器学习基础知识)
生活随笔
收集整理的這篇文章主要介紹了
机器学习-机器学习概论(入门机器学习基础知识)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
機器學(xué)習(xí)
- 簡介
- 機器學(xué)習(xí)一詞來源于Machine Learning的翻譯,主要研究計算機模擬或者實現(xiàn)人類的行為,顧名思義,像學(xué)生一樣,通過學(xué)習(xí)獲取新的知識或者技能,完善自身的知識結(jié)構(gòu),并不斷提升自己的性能。
- 機器學(xué)習(xí)是人工智能的核心,其應(yīng)用編輯人工智能的多個領(lǐng)域,如圖像處理、人臉識別、自然語言處理(NLP)、數(shù)據(jù)挖掘、生物特征識別、檢測信用卡欺詐、證券市場分析、語音和手寫識別等。
- 工作原理
- 傳統(tǒng)的計算機工作,人賦予一串指令(稱為程序),計算機根據(jù)這串指令一步一步執(zhí)行下去。這個過程因果關(guān)系明確,只要人的理解不出偏差,運行結(jié)果是可以準(zhǔn)確預(yù)測的。
- 機器學(xué)習(xí),打破了傳統(tǒng)模式,計算機確實還需要人類賦予它一串指令,但這串指令往往不能得到直接的結(jié)果,相反,這串指令賦予了機器“學(xué)習(xí)能力”,從中學(xué)習(xí)出最終的結(jié)果。這個結(jié)果往往不能直接編程得到。
- 這就有了機器學(xué)習(xí)的一種定義:是一種讓計算機利用數(shù)據(jù)而非指令來進(jìn)行各種工作的方法。在這背后,關(guān)鍵就是“統(tǒng)計學(xué)”思想,它所推崇的“相關(guān)而非因果”的概念是機器學(xué)習(xí)的理論根基。在此基礎(chǔ)上可以說機器學(xué)習(xí)是計算機使用輸入給它的數(shù)據(jù),利用人類賦予它的算法得到某種模型的過程,其最終目的是使用該模型預(yù)測未知數(shù)據(jù)的信息。
- 分類
- 說明
- 機器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù),但是核心是各種算法模型,只有通過這些算法,機器才能消化吸收各種數(shù)據(jù),不斷完善自身性能。機器學(xué)習(xí)的算法很多,很多算法是一類的算法只是實現(xiàn)過程略有不同,而有些算法是從其他算法延伸出來的。
- 根據(jù)學(xué)習(xí)方式的不同一般分為監(jiān)督學(xué)習(xí)算法、非監(jiān)督學(xué)習(xí)算法、半監(jiān)督學(xué)習(xí)算法、強化學(xué)習(xí)算法。
- 監(jiān)督學(xué)習(xí)算法
- 一個人類監(jiān)督學(xué)習(xí)的案例:當(dāng)一個孩子逐漸認(rèn)識事物的時候,父母會給他一些蘋果和橘子,并且告訴他蘋果是什么樣的,有哪些特征;橘子是什么樣的,有哪些特征。經(jīng)過父母的不斷介紹,這個孩子已經(jīng)知道蘋果和橘子的區(qū)別,如果孩子在看到蘋果和橘子的時候給出錯誤的判斷,父母會指出錯誤的原因,經(jīng)過不斷的學(xué)習(xí),再見到蘋果和橘子的時候,孩子立即就可以判斷出哪個是蘋果哪個是橘子。
- 上面這個例子就是監(jiān)督學(xué)習(xí)的過程,學(xué)習(xí)中不僅提供事物的具體特征還提供了事物的名稱或者分類。不過人類可以去觸摸去體會,但是機器不一樣,必須提供每個樣本的特征及其類別,使用這些數(shù)據(jù),通過算法讓機器學(xué)習(xí),進(jìn)行判斷,逐步減小誤差概率。
- 不妨這樣理解:監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中“學(xué)習(xí)”出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集的數(shù)據(jù)要求包括輸入和輸出,也可以說是包括特征和目標(biāo),目標(biāo)是人類事先標(biāo)注的。
- 監(jiān)督學(xué)習(xí)主要應(yīng)用于分類(Classify)和回歸(Regression)。常見的監(jiān)督學(xué)習(xí)算法有**k-近鄰算法(KNN)、決策樹、樸素貝葉斯(NB)、Logistic回歸、支持向量機(SVM)、AdaBoost算法、線性回歸(LR)、局部加權(quán)線性回歸(LWLR)、收縮和樹回歸等。
- 非監(jiān)督學(xué)習(xí)算法
- 一個人類非監(jiān)督學(xué)習(xí)的案例:當(dāng)一個孩子逐漸認(rèn)識事物的時候,父母會給他一些蘋果和橘子,但是沒有告訴他哪個是蘋果哪個是橘子,而是讓他根據(jù)兩個事物的特征自己進(jìn)行判斷,會把蘋果和橘子分到兩個不同的組中。下次再給孩子一個蘋果,他會把蘋果分到蘋果組中,而不是分到橘子組中。
- 上面的這個例子就是非監(jiān)督學(xué)習(xí)的過程,也就是說,在學(xué)習(xí)的過程中,只是提供事物的具體特征,但不提供事物的名稱,讓學(xué)習(xí)者自己總結(jié)歸納。所以非監(jiān)督學(xué)習(xí)又被稱為歸納性學(xué)習(xí)(Clustering),是指將數(shù)據(jù)集合分成由類似的對象組成的多個簇或者組的過程。當(dāng)然,在機器學(xué)習(xí)的過程中,人類只提供樣本的特征,使用這些數(shù)據(jù),通過算法讓機器學(xué)習(xí),進(jìn)行自我歸納,以達(dá)到同組內(nèi)的事物特征非常接近,不同組的事物特征相距很遠(yuǎn)的結(jié)果。
- 非監(jiān)督學(xué)習(xí)主要應(yīng)用于聚類。常見的非監(jiān)督學(xué)習(xí)算法有k-均值(k-means)、Apriori和FP-Growth等。
- 增強學(xué)習(xí)算法
- 我們都玩過迷宮游戲,從一個入口進(jìn)去,穿過不同的路線,從另外一個入口出來,中間很多路是不通的。如何走出來能?只有分布==分別嘗試不同的路線,如果一個走錯,那么久記錄下來,再嘗試其他的路線,有可能回到上一個路口,走過的路是否正確,自己心中已經(jīng)有一個規(guī)劃,最終找到最合理的路徑。這就是增強學(xué)習(xí)的一個例子。
- 增強學(xué)習(xí)(Reinforcement Learning,RL)又叫做強化學(xué)習(xí),是近年來機器學(xué)習(xí)和智能控制領(lǐng)域的主要方法之一。通過增強學(xué)習(xí),人類或者機器可以知道在上面狀態(tài)下應(yīng)該采取什么樣的行為。增強學(xué)習(xí)是從環(huán)境狀態(tài)到動作的映射的學(xué)習(xí),把這個映射稱為策略,最終學(xué)習(xí)到一個合理的策略。它通過試錯的方式獲得最佳策略。另外,由于增強學(xué)習(xí)指導(dǎo)信息很少,往往事后(最后一個狀態(tài))才得到反饋信息,以及采取某個行動是獲得正回報還是負(fù)回報,如何將回報分配給前面的狀態(tài)以改進(jìn)相應(yīng)的策略,規(guī)劃下一步動作。
- 增強學(xué)習(xí)的算法主要有動態(tài)規(guī)劃、馬爾可夫決策過程等。
- 簡要比對
- 監(jiān)督學(xué)習(xí):提供數(shù)據(jù)特征,也提供數(shù)據(jù)類別,主要用于預(yù)測和分類。
- 非監(jiān)督學(xué)習(xí):提供數(shù)據(jù)特征,不提供數(shù)據(jù)類別,主要用于發(fā)現(xiàn)事物內(nèi)部結(jié)構(gòu)。
- 增強學(xué)習(xí):在學(xué)習(xí)過程中根據(jù)外部狀態(tài)實時調(diào)整自己的策略,主要用于路徑規(guī)劃。
- 說明
- 與深度學(xué)習(xí)關(guān)系
- 機器學(xué)習(xí)是人工智能的一部分,而深度學(xué)習(xí)(源于人工神經(jīng)網(wǎng)絡(luò)的研究)是機器學(xué)習(xí)的一部分。即人工智能>機器學(xué)習(xí)>深度學(xué)習(xí)。
- 機器學(xué)習(xí)術(shù)語
- 數(shù)據(jù)集
- DataSet,數(shù)據(jù)的集合,每一條數(shù)據(jù)成為樣本(Sample),一般而言每一個樣本相互獨立。(特殊的是隱含馬爾可夫模型和條件隨機場模型)。
- 訓(xùn)練集(Training Set)
- 用來訓(xùn)練模型的數(shù)據(jù)集,一般選取一部分?jǐn)?shù)據(jù)作為訓(xùn)練集。
- 測試集(Test Set)
- 用來測試、評估模型泛化能力的部分,測試集不會用于訓(xùn)練,對模型而言是“未知”的。一般,選取一部分?jǐn)?shù)據(jù)作為測試集。
- 交叉驗證集(CV Set)
- 比較特殊的一部分?jǐn)?shù)據(jù),它是用來調(diào)整模型具體參數(shù)的。
- 訓(xùn)練集用來估計模型,交叉驗證集用來確定網(wǎng)絡(luò)結(jié)構(gòu)和控制模型復(fù)雜程度的參數(shù),測試集用來檢驗最終選擇最優(yōu)的模型性能如何。一個典型劃分為訓(xùn)練集占50%其余各占25%。但是,當(dāng)樣本過少時這個劃分就不太合理,此時選取少部分作為測試集對其余N個樣本使用K折交叉驗證法。
- 屬性或特征
- 對于每個樣本,通常具有一些“屬性”(Attribute)或者說是“特征”(Feature),特征所取的具體的值為“特征值”(Feather Value)。特征和樣本所組成的空間被稱為“特征空間”(Feather Space)和樣本空間(Sample Space),可以把它們簡單理解為特征和樣本“可能存在的空間”。
- 標(biāo)簽或類別
- 與之對應(yīng)的有“標(biāo)簽空間”(Label Space),它描述了模型的輸出“可能存在的空間”;當(dāng)模型是分類器時,通常會稱為“類別空間”。
- 數(shù)據(jù)集
- 補充說明
- 參考書籍推薦為《Python3數(shù)據(jù)分析與機器學(xué)習(xí)實戰(zhàn)》
- 機器學(xué)習(xí)領(lǐng)域常用Python庫有
- 矩陣操作函數(shù)庫(numpy)
- 科學(xué)計算的核心包(scipy)
- Python繪圖庫(matplotlib)
- 數(shù)據(jù)分析包(pandas)
- 機器學(xué)習(xí)函數(shù)庫(scikit-learn,sklearn)
- 統(tǒng)計建模工具包(StstsModels)
- 深度學(xué)習(xí)框架(TensorFlow)
- 深度學(xué)習(xí)函數(shù)庫(keras)
總結(jié)
以上是生活随笔為你收集整理的机器学习-机器学习概论(入门机器学习基础知识)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析与挖掘实战-家用电器用户行为分析
- 下一篇: Linux服务-FTP文件服务器部署