聚类的基本概念-聚类与分类的区别
一、聚類的概念
聚類是常見的無監督學習算法。人有歸納和總結的能力,機器也有。簡單來說,聚類就是讓機器把數據集中的樣本按照特征的性質分組,在這個過程中沒有標簽的存在。其目標是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內的相似性(同質性)越大,組間差別越大,聚類就越好。
二、深入解讀聚類
(1)聚類是一種機器學習技術,它涉及到數據點的分組。給定一組數據點,可以使用聚類算法將每個數據點劃分為一個特定的組。
(2)同一組中的數據點應該具有相似的屬性/特征,而不同組中的數據點應該具有高度不同的屬性/特征。
(3)聚類是一種無監督學習的方法,是許多領域中常用的統計數據分析技術。
(4)聚類與分類的不同在于,聚類所要求劃分的類是未知的。
(5)聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
聚類與分類區別
一、聚類 VS 分類
KNN算法屬于“有監督學習”的一部分,也就是說,模型在訓練的時候,即需要特征矩陣X ,也需要真實標簽 y。
機器學習當中,還有相當一部分算法屬于“無監督學習”,無監督的算法在訓練的時候只需要特征矩陣X ,不需要標簽。無監督學習的代表算法有聚類算法、降維算法。
聚類算法又叫做“無監督分類”,其目的是將數據劃分成有意義或有用的組(或簇)。這種劃分可以基于我們的業務需求或建模需求來完成。
(1)聚類 VS 分類的對比圖:
A. 在聚類的過程中,圖中左上角的原始數據分布散點圖呈灰色,沒有用特定的顏色(紅色或橙色)區分,也就是說數據沒有標簽。聚類后將數據分為不同的簇,用紅橙黑三色標記,見右上圖。在一個簇中的數據就認為是同一類,也就是說這些數據具有相似性。
B. 在分類的過程中,測試樣本點用×表示,數據帶有標簽(左下角紅橙黑三色區分),經過分類后測試點×被分到了紅色區域,見右下圖。
(2)聚類 VS 分類的對比表:
總結
以上是生活随笔為你收集整理的聚类的基本概念-聚类与分类的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iView 实战系列教程(21课时)_2
- 下一篇: linux7.2配置多路径软件,RHEL