第六章---机器学习与数据建模
點學習:通過接收到的數據,歸納提取相同與不同
機器學習:?讓計算機以數據為基礎,進行歸納與總結
模型:數據解釋現象的系統(tǒng)
機器學習:
1.監(jiān)督學習(機器學習的過程有標注:相當于告訴模型,在什么樣的數據特征下應該輸出什么樣的結果,機器學習的任務就是提煉出輸入與標注間的關系,并進行預測)
根據標注是離散值還是連續(xù)值,監(jiān)督學習可分為分類問題和回歸問題
1)分類(標注是離散值)
2)回歸(標注是連續(xù)值)
2.非監(jiān)督學習(機器學習的過程無標注,完全讓數據自己說話,將數據自身的特征在不同的模型中進行不同的表現)
1)聚類
2)關聯
3.半監(jiān)督學習(部分有標注,部分沒有標注,有標注的數據可以作用于沒有標注的數據,規(guī)范與引導聚類或者關聯的方向,同時沒有標注的數據也可作用于有標注的數據,時刻獲得模型對于數據整體情況的影響和反饋)
數據集:訓練集、測試集、驗證集(6:2:2)
?
測試集:通過訓練集和測試集的出最優(yōu)模型后,使用測試集進行模型的預測,用來衡量這個模型的性能和分類能力,即可以把測試集當做從來不存在的數據集,當已經確定模型的參數后,使用測試集進行模型的泛化能力的評價
泛化:對未知數據的預測能力
模型面對訓練集和測試集以外的未知數據或者實際場景的數據時預測能力的大小,如果一個模型在訓練集和驗證集表現良好,而測試集表現不好,那么該模型的泛化能力就比較差,這種現象也叫做過擬合現象,一份數據集切分成訓練集,測試集,驗證集的方法也叫作交叉驗證。有的時候我們會忽略驗證集,而通過不斷地重復的嘗試,來達到驗證的目的,這樣一個數據集就會只分為訓練集,測試集,比例通常取4:1(80%:20%)這些切分一般是隨機的,為了全面衡量模型的質量,有時候也會采取K折疊交叉驗證
?監(jiān)督學習中的分類問題:
?注:邏輯斯特映射和人工神經網絡大多數既可以做分類也可以做回歸問題,主要以回歸為主
,?KD_Tree:如果一個空間中有很多的點,那么怎么去找我們隨機指定的一個點附近的最近的K個點呢?
當然有一種方法就是遍歷每一個點,然后進行從小到大的排序。不過效率過低,所以就有了KD-Tree,通過樹形結構,可以達到快速尋找最近點的目的。
?這樣的話在空間里就會分成很多大小不一的格子,每個格子都通過這里的線建立成一個樹形的索引,如果把這些線當成中間節(jié)點,而把這些點當做是葉子節(jié)點,
,??
?
,??
,??
,??
,??
,??
生成模型:一般情況下對數據的要求更高一些,比如樸素貝葉斯中要求數據是離散的,速度相對快一些
判別模型:速度相對慢些,但是對數據容忍程度的更大一些,使用的范圍也更廣一些
?
?在構造決策樹的時候,有個問題需要考慮,就是說這些特征的順序如何擺放?
?
?決定特征順序的方法:
熵:代表隨機變量或者整個系統(tǒng)的不確定性,熵越大,隨機變量或者整個系統(tǒng)的不確定性就越大。
, ??
,??
?
,?
,??
,?問題:
?
,??
,??
,??
,??
,??集成方法:組合多個模型,以獲得更好的效果
n:數據規(guī)模,p,m為常數
, ??
?袋裝法應用:隨機森立算法
袋裝法:把幾個不同的分類模型進行獨立袋裝,然后投票表決,幾個子模型間是互相獨立的,互不影響的。
?
?
提升法:boost,如果我們這些子模型串聯起來,一個模型以另一個模型的結果為基礎,進行訓練和預測,然后多個模型級聯,最終將每個訓練模型的結果進行加權求和,得到判決結果。
注:最后的結果是各個模型的加權疊加,并不是最后一個模型的輸出,子模型對樣本的差別的影響更大程度上取決于最終的權值,而不是它的順序
?
,?
?
,? 《新程序員》:云原生和全面數字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的第六章---机器学习与数据建模的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第五章--预处理理论
- 下一篇: 第七章-模型评估