模式识别之基础---常用分类算法特性归纳
生活随笔
收集整理的這篇文章主要介紹了
模式识别之基础---常用分类算法特性归纳
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
常用的分類算法主要有決策樹,貝葉斯,KNN,SVM,神經網絡以及基于規則的分類算法。
本文主要對各種分類算法的特性做一下總結。
1. 決策樹算法
- 決策樹算法是一種構建分類模型的非參數方法,它不要求任何先驗假設,不假定類和其他屬性服從一定的概率分布。
- 找到最佳決策樹是NP完全問題,許多決策樹算法都采取啟發式的方法指導對假定空間的搜索。
- 現有的決策樹構建技術不需要昂貴的計算代價,即使訓練集非常大,也可以快速建立模型。同時,決策樹一旦建立,未知樣本分類非常快,最壞情況下的時間復雜度為o(w),其中 w是樹的最大深度。
- 決策樹相對容易理解,并且在很多數據集上,決策樹的準確率可以與其他分類算法媲美。
- 決策樹是學習離散值函數的代表,但不能很好的推廣到某些特定的布爾問題。
- 決策樹算法對噪聲的干擾有很好的魯棒性,當采用避免過分擬合的方法后尤其如此。
- 冗余屬性不會對決策樹的準確率造成不利影響。
- 由于大多數的決策樹都采自頂向下的遞歸方式進行劃分,因此沿著樹向下,記錄會越來越少。在葉節點,記錄可能太少,對于葉節點代表的類,不能做出具有統計意義的判決,這就是所謂的數據碎片問題。解決該類問題的一種方法是,當樣本數小于某個特定閾值時,停止分裂。
- 子樹可能在決策樹中重復多次。當決策樹的每個內部節點都依賴單個屬性的測試條件時(相同的測試條件),就會出現這種情形。
2. 基于規則的分類器算法
- 規則集的表達能力幾乎等同于決策樹,因為決策樹可以用互斥和窮舉的規則集表示。基于規則的分類器和決策樹分類器都對屬性空間進行直線劃分,并將類指派到每個劃分。
- 基于規則的分類器通常被用來產生易于理解的描述性模型,而模型的性能可以與決策樹媲美。
- 基于規則的分類器使用的基于類的規則定序方法非常適用于處理類分布不平衡的數據集。
3. 最近鄰分類算法(KNN)
- 最近鄰分類屬于基于實例的學習技術,他使用具體的訓練實例進行預測。
- 最近鄰分類屬于消極學習方法,不必預先建立模型。但分類測試樣例的開銷卻很大,因為需要逐個計算測試樣例和訓練樣例之間的相似度。相反,積極學習方法通常需要花費大量計算資源來建立模型,模型一旦建立,分類測試樣例就會非常快。
- 最近鄰分類器基于局部信息進行預測,因此他對噪聲數據非常敏感。
- 最近鄰分類器可以生成任意形狀的決策邊界,這樣的決策邊界與決策樹相比,能提供更加靈活的模型表示。
4. 樸素貝葉斯分類算法
- 面對孤立的噪聲點,貝葉斯分類器是健壯的,因為從數據中估計條件概率時,這些點被平均。
- 通過在建模和分類時忽略樣例,貝葉斯分類器可以處理屬性值遺漏問題。
- 面對無關屬性,分類器是健壯的。如果x是無關屬性,那么p(x|Y)幾乎變成的均勻分布,x的條件概率不會對總的后驗概率產生影響。
- 相關屬性會降低分類器的性能,因為這對于條件獨立的假設不成立。
5. 貝葉斯信念網(BNN)
- BNN提供了一種用圖形模型來捕獲特定領域的先驗知識的方法。網絡還可以對變量間的因果依賴關系進行編碼。
- 構造網絡可能既費時又費力。然而一旦網絡結構確定下來,新添加變量就十分容易。
- BNN很適合處理不完整的數據,對有屬性遺漏的實例可以通過對該屬性的所有可能取值的概率求和或者求積分來加以處理。
- 對過分擬合問題非常魯棒。
因為對人工神經網絡沒有深入學習過,因此這里引用他人的總結。
人工神經網絡
- 至少含有一個隱藏層的多層神經網絡是一種普適近似,即可以用來近似任何目標函數。由于ANN具有豐富的假設空間,因此對于給定的問題,選擇合適的拓撲結構來防止模型的過分擬合是非常重要的。
- ANN可以處理冗余特征,因為權值在訓練過程中自動學習,冗余特征的權值非常小。
- 神經網絡對訓練數據中的噪聲非常敏感。
- ANN權值學習使用的梯度下降方法經常會收斂到局部極小值。
- 訓練ANN是非常耗時的。
?
參考《數據挖掘導論》
http://www.pluscn.net/?p=1553
?
轉載于:https://www.cnblogs.com/pengkunfan/p/3950716.html
總結
以上是生活随笔為你收集整理的模式识别之基础---常用分类算法特性归纳的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html中样式控制的问题
- 下一篇: PHP框架