當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模式识别之基础---常用分类算法特性归纳

發布時間：2025/3/21 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了模式识别之基础---常用分类算法特性归纳小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

常用的分類算法主要有決策樹，貝葉斯，KNN，SVM，神經網絡以及基于規則的分類算法。

本文主要對各種分類算法的特性做一下總結。

1. 決策樹算法

決策樹算法是一種構建分類模型的非參數方法，它不要求任何先驗假設，不假定類和其他屬性服從一定的概率分布。
找到最佳決策樹是NP完全問題，許多決策樹算法都采取啟發式的方法指導對假定空間的搜索。
現有的決策樹構建技術不需要昂貴的計算代價，即使訓練集非常大，也可以快速建立模型。同時，決策樹一旦建立，未知樣本分類非常快，最壞情況下的時間復雜度為o(w),其中 w是樹的最大深度。
決策樹相對容易理解，并且在很多數據集上，決策樹的準確率可以與其他分類算法媲美。
決策樹是學習離散值函數的代表，但不能很好的推廣到某些特定的布爾問題。
決策樹算法對噪聲的干擾有很好的魯棒性，當采用避免過分擬合的方法后尤其如此。
冗余屬性不會對決策樹的準確率造成不利影響。
由于大多數的決策樹都采自頂向下的遞歸方式進行劃分，因此沿著樹向下，記錄會越來越少。在葉節點，記錄可能太少，對于葉節點代表的類，不能做出具有統計意義的判決，這就是所謂的數據碎片問題。解決該類問題的一種方法是，當樣本數小于某個特定閾值時，停止分裂。
子樹可能在決策樹中重復多次。當決策樹的每個內部節點都依賴單個屬性的測試條件時（相同的測試條件），就會出現這種情形。

2. 基于規則的分類器算法

3. 最近鄰分類算法(KNN)

最近鄰分類屬于基于實例的學習技術，他使用具體的訓練實例進行預測。
最近鄰分類屬于消極學習方法，不必預先建立模型。但分類測試樣例的開銷卻很大，因為需要逐個計算測試樣例和訓練樣例之間的相似度。相反，積極學習方法通常需要花費大量計算資源來建立模型，模型一旦建立，分類測試樣例就會非常快。
最近鄰分類器基于局部信息進行預測，因此他對噪聲數據非常敏感。
最近鄰分類器可以生成任意形狀的決策邊界，這樣的決策邊界與決策樹相比，能提供更加靈活的模型表示。

4. 樸素貝葉斯分類算法

5. 貝葉斯信念網(BNN)

因為對人工神經網絡沒有深入學習過，因此這里引用他人的總結。

人工神經網絡

至少含有一個隱藏層的多層神經網絡是一種普適近似，即可以用來近似任何目標函數。由于ANN具有豐富的假設空間，因此對于給定的問題，選擇合適的拓撲結構來防止模型的過分擬合是非常重要的。
ANN可以處理冗余特征，因為權值在訓練過程中自動學習，冗余特征的權值非常小。
神經網絡對訓練數據中的噪聲非常敏感。
ANN權值學習使用的梯度下降方法經常會收斂到局部極小值。
訓練ANN是非常耗時的。

參考《數據挖掘導論》

http://www.pluscn.net/?p=1553

轉載于:https://www.cnblogs.com/pengkunfan/p/3950716.html

以上是生活随笔為你收集整理的模式识别之基础---常用分类算法特性归纳的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。