【机器学习】机器学习一些概念的整理(不断更新中)
維數災難:
https://blog.csdn.net/zbc1090549839/article/details/38929215
https://blog.csdn.net/tanya_girl/article/details/50151291
判別式模型與生成式模型:
對于輸入x,類別標簽y:
生成式模型:估計它們的聯合概率分布P(x,y),生成數據的分布。
特點:尋找不同類別之間的最優分類面,反映的是異類數據之間的差異。
判別式模型:判別式模型估計條件概率分布P(y|x),判別數據的輸出量。
特點:對后驗概率建模,從統計的角度表示數據的分布情況,能夠反映同類數據本身的相似度。
二者聯系:由產生式模型可以得到判別式模型,但由判別式模型得不到產生式模型。
https://blog.csdn.net/wolenski/article/details/7985426
https://blog.csdn.net/shuke1991/article/details/51689670
線性分類器三大類
基于核的機器學習算法
噪聲對SVM的影響
- 增、刪非支持向量樣本對模型沒有影響;
- 支持向量樣本集具有一定的魯棒性;
- 有些成功的應用中,SVM 方法對核的選取不敏感
- 噪聲數量太多
- 噪聲以新的分布形式出現,與原先樣本集的噪聲分布表現的相當不同。此時噪聲也有大概率落在最大分類間隔中間,從而成為支持向量,大大影響模型。
所以我們常說的魯棒性其實是主要是體現在對Outlier(異常點、離群點)上。
HMM算法分類
數據清理中,處理缺失值的方法
基于二次準則函數的H-K算法較之于感知器算法的優點
時間序列模型的比較
關聯規則模式挖掘各算法簡介(From 機器學習:序列模式挖掘算法,需要詳細學習)
1. Apriori算法?:關聯分析原始算法,用于從候選項集中發現頻繁項集。兩個步驟:進行自連接、進行剪枝。缺點:無時序先后性。
AprioriAll算法:AprioriAll算法與Apriori算法的執行過程是一樣的,不同點在于候選集的產生,需要區分最后兩個元素的前后。
AprioriSome算法:可以看做是AprioriAll算法的改進。
AprioriAll算法和AprioriSome算法的比較:
(1)AprioriAll用 去計算出所有的候選Ck,而AprioriSome會直接用 去計算所有的候選 ,因為 包含 ,所以AprioriSome會產生比較多的候選。
(2)雖然AprioriSome跳躍式計算候選,但因為它所產生的候選比較多,可能在回溯階段前就占滿內存。
(3)如果內存占滿了,AprioriSome就會被迫去計算最后一組的候選。
(4)對于較低的支持度,有較長的大序列,AprioriSome算法要好些。
2. GPS算法:類Apriori算法。用于從候選項集中發現具有時序先后性的頻繁項集。兩個步驟:進行自連接、進行剪枝。缺點:每次計算支持度,都需要掃描全部數據集;對序列模式很長的情況,由于其對應的短的序列模式規模太大,算法很難處理。
3. SPADE算法:改進的GPS算法,規避多次對數據集D進行全表掃描的問題。與GSP算法大體相同,多了一個ID_LIST記錄,使得每一次的ID_LIST根據上一次的ID_LIST得到(從而得到支持度)。而ID_LIST的規模是隨著剪枝的不斷進行而縮小的。所以也就解決了GSP算法多次掃描數據集D問題。
4.??FreeSpan算法:即頻繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想為:利用頻繁項遞歸地將序列數據庫投影到更小的投影數據庫集中,在每個投影數據庫中生成子序列片斷。這一過程對數據和待檢驗的頻繁模式集進行了分割,并且將每一次檢驗限制在與其相符合的更小的投影數據庫中。
優點:減少產生候選序列所需的開銷。缺點:可能會產生許多投影數據庫,開銷很大,會產生很多的
5.?PrefixSpan 算法:從FreeSpan中推導演化而來的。收縮速度比FreeSpan還要更快些。
正負樣本數據量不等情況下的數據處理方式
How To Choose:(From 如何解決機器學習中數據不平衡問題)
解決數據不平衡問題的方法有很多,上面只是一些最常用的方法,而最常用的方法也有這么多種,如何根據實際問題選擇合適的方法呢?接下來談談一些我的經驗。
在正負樣本都非常之少的情況下,應該采用數據合成的方式;在負樣本足夠多,正樣本非常之少且比例及其懸殊的情況下,應該考慮一分類方法;在正負樣本都足夠多且比例不是特別懸殊的情況下,應該考慮采樣或者加權的方法。
采樣和加權在數學上是等價的,但實際應用中效果卻有差別。尤其是采樣了諸如Random Forest等分類方法,訓練過程會對訓練集進行隨機采樣。在這種情況下,如果計算資源允許上采樣往往要比加權好一些。
另外,雖然上采樣和下采樣都可以使數據集變得平衡,并且在數據足夠多的情況下等價,但兩者也是有區別的。實際應用中,我的經驗是如果計算資源足夠且小眾類樣本足夠多的情況下使用上采樣,否則使用下采樣,因為上采樣會增加訓練集的大小進而增加訓練時間,同時小的訓練集非常容易產生過擬合。對于下采樣,如果計算資源相對較多且有良好的并行環境,應該選擇Ensemble方法。
機器學習中的數據降維方法
(From:機器學習四大數據降維方法詳解,數據降維方法總結待補充)
非極大值抑制(Non-maximum suppression)
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的【机器学习】机器学习一些概念的整理(不断更新中)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】传统目标检测算法总结
- 下一篇: 【数学基础】拉格朗日乘子法