python中聚类和分类的区别_聚类与分类有什么区别?
機器學習技術近來得到普遍關注,其中人們談論最多的兩類機器學習算法就是分類和聚類。簡單說,分類就是向事物分配標簽,聚類就是將相似的事物放在一起。不過這兩個概念的含義和區別還是經常讓不少人感到迷惑。
我們搞不清這兩者的原因很大一部分是由于很多教程和文章對它們的解釋都是一筆帶過,重點講解了一大堆公式。今天我們就借助一個傳統工具——Excel表格,解釋分類和聚類的含義,并對二者做個直觀的比較。
分類是如何工作的
比方說你想預測哪些學生能夠畢業,哪些學生可能退學。可能你想找出學生屬于哪個類別,這樣就可以向他們分配輔導老師,補習功課。因此你就有了兩個標簽:危險和低危險。要想用分類法實現這個目標,你需要已經畢業的學生的數據作為訓練集。
現在我們不說算法,用下面這個Excel表:
這張表中的GPA、暫令停學、學生是否被開除等存在一些數據模式。通過觀察這些模式,你心里也會發現一些數據關系,注意到一些異常情況。
所以,根據下面這些數據,你能確定哪些學生可能畢業嗎?如果能,那恭喜,你現在就相當于一個分類算法!
分類舉例所用數據下載地址:
整體來看,分類具有以下特征:利用分類器,即一個定義好的算法,能將信息映射為一個具體類別。
通過常見指標來評估分類分析的效果。
屬于監督式學習,因為它是根據可比較的特性來分配已確定的標簽。
聚類是如何工作的
現在我們看看聚類。現在下面這個數據集并沒有標簽,我們想讓電腦能高效地找到哪些數據之間比較相似,然后將它們分組。
我們在數據中也能發現一些模式:有些數據在行中出現了111,然后是000,然后又是111。那么這時就可以把有這種特征的行進行分組,組成一個聚類。當然,還有些是000,111,000,那么就可以把這些行組成另一個聚類。
聚類舉例所用數據下載地址:
整體來看,聚類具有以下特征:沒有確切的定義。這也是為何存在多種聚類算法和模型的原因。
效果較難評估。由于其內在的不確定性,導致常常很難確定和評估聚類分析的結果。
屬于無監督學習。
比較分類和聚類
我們以一張表格將這兩者做個清晰的比較:
以上就是分類和聚類的工作原理和區別。當然在機器學習中,我們有很多種算法可以計算這種問題,有些還能夠處理不同形式的分類和聚類問題。下面列出一些常見的分類和聚類算法:
1. 分類算法:K近鄰(KNN)
決策樹
樸素貝葉斯
邏輯回歸
支持向量機
隨機森林
2. 聚類算法K均值(K-means)
DBSCAN
DPEAK
Mediods
Canopy
參考資料:
可能你還感興趣:
總結
以上是生活随笔為你收集整理的python中聚类和分类的区别_聚类与分类有什么区别?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oo面向对象第一单元总结
- 下一篇: Hadoop上传和下载大存储的HIVE表