机器学习中的数学--数学知识复习
機器學習
機器學習三個部分:編程能力+數學統計知識+業務知識
機器學習分類
1 監督學習:例如分類、房價預測
2 無監督學習:例如聚類
3 強化學習:例如動態系統、機器人控制系統
機器學習算法
| 連續 | 聚類 && 降維 | 回歸 |
| ?? | ????PCA | ????線性回歸/多項式回歸 |
| ?? | ????SVD | 決策樹 |
| ?? | ????K-means | 隨機森林 |
| 不連續 | 隱馬爾科夫 | 分類 |
| ?? | 相關性分析 | ????KNN/Trees |
| ?? | ????FP-Growth/Apriori | ????邏輯回歸/樸素貝葉斯/SVM |
機器學習一般思路
分析得到多個特征:高、富、帥、潛等;
觀察多個數據得到每個數據的每個特征值;
設計得分函數;
設計損失函數;
損失函數最小化,求得特征權重;
根據得分函數,對新數據預測。
微積分
微積分用于求損失函數的最小值。
1 夾逼定理
2 導數
導數定義與意義:導數是曲線的斜率;二階導數是斜率變化快慢的反應。
常用函數的導數
3泰勒公式
4方向導數與梯度
方向導數:是標量
梯度:是有方向的,是一個向量;是f函數對坐標軸求偏導得到的。
梯度的方向是函數在該點增長最快的方向。
5梯度下降法
在損失函數最小值計算中用到。
6凸函數
凸函數的定義:?x,y∈dom,0<θ<1,?x,y∈dom,0<θ<1,有f(θx+(1?θ)y)<=θf(x)+(1?θ)f(x)f(θx+(1?θ)y)<=θf(x)+(1?θ)f(x)
凸函數判定依據:二階導數>=0二階導數>=0,f(x)是凸的。
概率與數理統計
1概率公式
條件概率:
全概率公式:
貝葉斯公式:
2常見概率分布
3概率與統計的區別
概率:已知總體,已知概率分布參數,求某種情況發生的概率。已知總體,求抽樣(某事件)發生的概率。
數理統計:已知總體分布,但不知道具體參數,從抽樣數據中推出總體參數。
在有監督的機器學習中,已知數據,求得權重的過程是數理統計的過程:從樣本推出總體參數;這是機器學習的訓練過程。
在有監督的機器學習中,已知數據和權重,求得標簽的過程是概率:已知總體,求抽樣發生的概率;這是機器學習的預測過程。
4 根據各個分布特性評估模型和樣本
觀察已有數據的標簽分布、每個特征的分布;評估了分布后,大致可以得到某些特征和標簽的相關性較強,某些特征和標簽的相關性較弱。
統計估計的是分布,機器學習訓練出來的是模型。模型可能包含了多個分布。
模型是有誤差的。誤差本身可以是概率的形式。
5 常見統計量
期望
方差
協方差:可以評價特征與標簽的相關性;用于特征選擇
相關系數
線性代數
A.x的含義
SVD的幾何意義
矩陣乘法
總結
以上是生活随笔為你收集整理的机器学习中的数学--数学知识复习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++实践参考——数组类运算的实现
- 下一篇: 各大厂面试云集的《520道LeetCod