當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】机器学习一些概念的整理（不断更新中）

發布時間：2023/12/20 编程问答 73 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】机器学习一些概念的整理（不断更新中）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

維數災難：

當特征維數很高的時候，即使訓練集性能很好，也很有可能是由于過擬合造成的，模型的泛化能力很弱。

當特征維數很高的時候，樣本映射到高維的特征空間下，距離度量逐漸失去了度量差異性的能力。

https://blog.csdn.net/zbc1090549839/article/details/38929215

https://blog.csdn.net/tanya_girl/article/details/50151291

判別式模型與生成式模型：

對于輸入x，類別標簽y：

生成式模型：估計它們的聯合概率分布P(x,y)，生成數據的分布。

特點：尋找不同類別之間的最優分類面，反映的是異類數據之間的差異。

判別式模型：判別式模型估計條件概率分布P(y|x)，判別數據的輸出量。

特點：對后驗概率建模，從統計的角度表示數據的分布情況，能夠反映同類數據本身的相似度。

二者聯系：由產生式模型可以得到判別式模型，但由判別式模型得不到產生式模型。

https://blog.csdn.net/wolenski/article/details/7985426

https://blog.csdn.net/shuke1991/article/details/51689670

線性分類器三大類

感知器準則函數：代價函數J=-(W*X+w0)，分類的準則是最小化代價函數。感知器是神經網絡（NN）的基礎，網上有很多介紹。

SVM：支持向量機也是很經典的算法，優化目標是最大化間隔（margin），又稱最大間隔分類器，是一種典型的線性分類器。（使用核函數可解決非線性問題）

Fisher準則：更廣泛的稱呼是線性判別分析（LDA），將所有樣本投影到一條遠點出發的直線，使得同類樣本距離盡可能小，不同類樣本距離盡可能大，具體為最大化“廣義瑞利商”。https://www.cnblogs.com/pinard/p/6244265.html

基于核的機器學習算法

徑向基核函數(Radial Basis Function)

線性判別分析(Linear Discrimimate Analysis):LDA其他變種，如果原始數據投影后，仍舊不能很好的分開，那么Kernel LDA是一個解決方法。在有出現向量內積的地方，都可以引入核函數。

支持向量機 (Support Vector Machine)

噪聲對SVM的影響

少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種“魯棒”性主要體現在:

增、刪非支持向量樣本對模型沒有影響;
支持向量樣本集具有一定的魯棒性;
有些成功的應用中,SVM 方法對核的選取不敏感

但當噪聲出現的過多，以及當噪聲出現并成為支持向量時，那么噪聲對模型對影響是巨大的。所以此時SVM對噪聲不具備魯棒性！以下兩種情況會增大噪聲成為支持向量的概率：

噪聲數量太多
噪聲以新的分布形式出現，與原先樣本集的噪聲分布表現的相當不同。此時噪聲也有大概率落在最大分類間隔中間，從而成為支持向量，大大影響模型。

所以我們常說的魯棒性其實是主要是體現在對Outlier（異常點、離群點）上。

HMM算法分類

前向、后向算法解決的是一個評估問題，即給定一個模型，求某特定觀測序列的概率，用于評估該序列最匹配的模型。

Baum-Welch算法解決的是一個模型訓練問題，即參數估計，是一種無監督的訓練方法，主要通過EM迭代實現；如果給定觀測序列，沒有對應的狀態序列，才用EM，將狀態序列看不不可測的隱數據

維特比算法解決的是給定一個模型和某個特定的輸出序列，求最可能產生這個輸出的狀態序列。如通過海藻變化（輸出序列）來觀測天氣（狀態序列），是預測問題，通信中的解碼問題。

極大似然估計：即觀測序列和相應的狀態序列都存在時的監督學習算法，用來估計參數

數據清理中，處理缺失值的方法

估算(estimation)。最簡單的辦法就是用某個變量的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單，但沒有充分考慮數據中已有的信息，誤差可能較大。另一種辦法就是根據調查對象對其他問題的答案，通過變量之間的相關分析或邏輯推論進行估計。例如，某一產品的擁有情況可能與家庭收入有關，可以根據調查對象的家庭收入推算擁有這一產品的可能性。

整例刪除(casewise deletion)是剔除含有缺失值的樣本。由于很多問卷都可能存在缺失值，這種做法的結果可能導致有效樣本量大大減少，無法充分利用已經收集到的數據。因此，只適合關鍵變量缺失，或者含有無效值或缺失值的樣本比重很小的情況。

變量刪除(variable deletion)。如果某一變量的無效值和缺失值很多，而且該變量對于所研究的問題不是特別重要，則可以考慮將該變量刪除。這種做法減少了供分析用的變量數目，但沒有改變樣本量。

成對刪除(pairwise deletion)是用一個特殊碼(通常是9、99、999等)代表無效值和缺失值，同時保留數據集中的全部變量和樣本。但是，在具體計算時只采用有完整答案的樣本，因而不同的分析因涉及的變量不同，其有效樣本量也會有所不同。這是一種保守的處理方法，最大限度地保留了數據集中的可用信息。

基于二次準則函數的H-K算法較之于感知器算法的優點

HK算法的思想很樸實，就是在最小均方誤差準則下求得權矢量。

它相對于感知器算法的優點在于，它適用于線性可分和非線性可分的情況。

對于線性可分的情況，給出最優權矢量，

對于分線性可分的情況，能夠判別出來，以退出迭代過程。

時間序列模型的比較

AR模型：AR模型是一種線性預測，即已知N個數據，可由模型推出第N點前面或后面的數據（設推出P點），所以其本質類似于插值。

MA模型：移動平均法模型，其中使用趨勢移動平均法建立直線趨勢的預測模型，模型參量法譜分析方法之一。

ARMA模型：自回歸滑動平均模型，擬合較高階模型，模型參量法高分辨率譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜分辨率性能，但其參數估算比較繁瑣。

GARCH模型：廣義回歸模型，它是ARCH模型的推廣，GARCH(p,0)模型，相當于ARCH(p)模型。GARCH模型是一個專門針對金融數據所量體訂做的回歸模型，除去和普通回歸模型相同的之處，GARCH對誤差的方差進行了進一步的建模。特別適用于波動性的分析和預測，這樣的分析對投資者的決策能起到非常重要的指導性作用，其意義很多時候超過了對數值本身的分析和預測。

關聯規則模式挖掘各算法簡介(From 機器學習：序列模式挖掘算法，需要詳細學習)

1. Apriori算法?：關聯分析原始算法，用于從候選項集中發現頻繁項集。兩個步驟：進行自連接、進行剪枝。缺點：無時序先后性。

AprioriAll算法：AprioriAll算法與Apriori算法的執行過程是一樣的，不同點在于候選集的產生，需要區分最后兩個元素的前后。

AprioriSome算法：可以看做是AprioriAll算法的改進。

AprioriAll算法和AprioriSome算法的比較：

（1）AprioriAll用去計算出所有的候選Ck，而AprioriSome會直接用去計算所有的候選，因為包含，所以AprioriSome會產生比較多的候選。

（2）雖然AprioriSome跳躍式計算候選，但因為它所產生的候選比較多，可能在回溯階段前就占滿內存。

（3）如果內存占滿了，AprioriSome就會被迫去計算最后一組的候選。

（4）對于較低的支持度，有較長的大序列，AprioriSome算法要好些。

2. GPS算法：類Apriori算法。用于從候選項集中發現具有時序先后性的頻繁項集。兩個步驟：進行自連接、進行剪枝。缺點：每次計算支持度，都需要掃描全部數據集；對序列模式很長的情況，由于其對應的短的序列模式規模太大，算法很難處理。

3. SPADE算法：改進的GPS算法，規避多次對數據集D進行全表掃描的問題。與GSP算法大體相同，多了一個ID_LIST記錄，使得每一次的ID_LIST根據上一次的ID_LIST得到（從而得到支持度）。而ID_LIST的規模是隨著剪枝的不斷進行而縮小的。所以也就解決了GSP算法多次掃描數據集D問題。

4.??FreeSpan算法：即頻繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想為：利用頻繁項遞歸地將序列數據庫投影到更小的投影數據庫集中，在每個投影數據庫中生成子序列片斷。這一過程對數據和待檢驗的頻繁模式集進行了分割，并且將每一次檢驗限制在與其相符合的更小的投影數據庫中。

優點：減少產生候選序列所需的開銷。缺點：可能會產生許多投影數據庫，開銷很大，會產生很多的

5.?PrefixSpan 算法：從FreeSpan中推導演化而來的。收縮速度比FreeSpan還要更快些。

正負樣本數據量不等情況下的數據處理方式

采樣：采樣分為上采樣（Oversampling）和下采樣（Undersampling），上采樣是把小種類復制多份，下采樣是從大眾類中剔除一些樣本，或者說只從大眾類中選取部分樣本。

數據合成：數據合成方法是利用已有樣本生成更多樣本，例如圖像旋轉、形變等。

權值調整：對不同類別分錯的代價不同

一分類：對于正負樣本極不平衡的場景，我們可以換一個完全不同的角度來看待問題：把它看做一分類（One Class Learning）或異常檢測（Novelty Detection）問題。這類方法的重點不在于捕捉類間的差別，而是為其中一類進行建模，經典的工作包括One-class SVM等。

How To Choose:(From 如何解決機器學習中數據不平衡問題)

解決數據不平衡問題的方法有很多，上面只是一些最常用的方法，而最常用的方法也有這么多種，如何根據實際問題選擇合適的方法呢？接下來談談一些我的經驗。

在正負樣本都非常之少的情況下，應該采用數據合成的方式；在負樣本足夠多，正樣本非常之少且比例及其懸殊的情況下，應該考慮一分類方法；在正負樣本都足夠多且比例不是特別懸殊的情況下，應該考慮采樣或者加權的方法。

采樣和加權在數學上是等價的，但實際應用中效果卻有差別。尤其是采樣了諸如Random Forest等分類方法，訓練過程會對訓練集進行隨機采樣。在這種情況下，如果計算資源允許上采樣往往要比加權好一些。

另外，雖然上采樣和下采樣都可以使數據集變得平衡，并且在數據足夠多的情況下等價，但兩者也是有區別的。實際應用中，我的經驗是如果計算資源足夠且小眾類樣本足夠多的情況下使用上采樣，否則使用下采樣，因為上采樣會增加訓練集的大小進而增加訓練時間，同時小的訓練集非常容易產生過擬合。對于下采樣，如果計算資源相對較多且有良好的并行環境，應該選擇Ensemble方法。

機器學習中的數據降維方法

（From：機器學習四大數據降維方法詳解，數據降維方法總結待補充）

LASSO

主成分分析法

聚類分析

小波分析法

線性判別法

拉普拉斯特征映射

奇異值分解法

因子分析法

局部線性嵌入（LLE）

多維標定法（MDS）

非極大值抑制(Non-maximum suppression)

總結

以上是生活随笔為你收集整理的【机器学习】机器学习一些概念的整理（不断更新中）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。