李航统计学习方法
統計學習方法概論:
統計學習特點
統計學習的對象是數據,它要求數據是獨立同分布的,從數據中提取特征,抽象出模型,發現數據中的規律然后對數據進行分析于預測。
統計學習方法三要素
模型、策略 、算法
模型:
模型是所要學習的條件概率分布或決策函數,首先模型有一個假設空間,其包含所有可能的條件概率分布函數或者決策函數,假設空間中的模型有無窮多個。
策略
策略就是按照什么樣的準則學習或者選擇最優的模型,期望風險最小化是理論上的原則,但是期望風險不可以得到,所以用經驗風險最小化原則和結構風險最小化原則替代期望風險最小化。經驗風險最小化原則適合于大樣本,當樣本無限大其等效于期望風險最小化,但是當樣本較小時容易出現過擬合現象。結構風險最小化是爭對小樣本,防止過擬合的情況,結構風險化就是在經驗風險化上增加了一個正則化項,是一個隨著模型的復雜度增加而遞增的函數,以此來限制模型過于復雜而出現過擬合。確定策略實際上就是確定了最優化的目標函數。
算法
用什么算法求解最優化目標函數。
模型的評價
泛化誤差,泛化誤差上界越小越好。
生成方法和判別方法
感知機
感知機算法是神經網絡和支持向量機的基礎,對線性可分的數據具有收斂性
貝葉斯
樸素貝葉斯
貝葉斯估計
決策樹
決策樹的兩個步驟生成樹和剪枝,生成樹的關鍵是特征選擇,依據信息增益來選擇區分度高的特征。剪枝的關鍵是依據損失函數,剪枝消去過擬合的情況。
信息增益計算
ID3生成樹算法
出4.5生成樹算法
決策樹剪枝
CART算法
CART剪枝
總結
- 上一篇: 记录一段让我吐血的代码
- 下一篇: 线性支持向量机完全理解版