分类和聚类的区别
1.1 分類簡單小例子
分類的定義是:依據數據對象已知的屬性將數據對象進行歸類。
不懂“數據對象”、“屬性”?
如果您已經懂了"數據對象"與"屬性"的概念,請跳過該分割線中的內容!
“數據對象”、“屬性”是數據分析中的一個概念。
我們拿到的數據通常是有多行、多列的數據表,下面這個表是很簡單的一個數據表。
簡單點,你就理解成“數據對象”就是這個數據表中(非首行)的一行就行啦!
對于,首行,你就理解成數據對象的一個“模板”就行了!
對于,首行,你就理解成個體的一個模板就行了!
同樣地,簡單點理解,“屬性”就理解成數據表中的一列。
?
總之,你有可能聽到別人是這樣陳述的:(“小王”,59,59,“Y”)是一個數據對象,這個數據對象的“學生姓名”屬性是“小王”,“平時成績”屬性是59。
下面一起來看看這個例子吧。
假如你是個老師,教務部告訴你:成績表上小王、小紅、小張同學還沒有被判斷是否掛科,見表1-1。你的工作是:對這三位學生進行掛科與否的分類。在此時“掛科”與“不會掛科”就是兩個類別。
教務部告訴你,目前的掛科與否的分類規則是:
① 如果學生的總成績低于60分,則被分類為“掛科”這一類別。
② 如果學生的總成績大于等于60分,則被分類為“沒掛科”這一類別。
(注:總成績 = 0.5 * 平時成績 + 0.5 * 期末考試成績)
根據這個分類規則,你就可以對這三位學生進行分類啦,分類結果如表1-2所示。
分類具體過程
如果讀懂了上面的內容,請跳過該分割線中的內容!
對于小王同學:
總成績 = 0.5 * 59 + 0.5 * 59 < 60 ; 被分類為“掛科”
對于小紅同學:
總成績 = 0.5 * 61 + 0.5 * 63 > 60 ; 被分類為“沒掛科”
對于小張同學:
總成績 = 0.5 * 84 + 0.5 * 86 > 60 ; 被分類為“沒掛科”
1.2 聚類簡單小例子
聚類的目的?其實是將數據對象進行歸類。看看下面這個例子就知道啦!
假設你是你們班的班長,你的老師已經把學生的成績表交給你,然后對你說:根據同學們的成績把他們分成不同的學習小組吧!怎么分?分成什么樣,你自己決定吧!
而這就是聚類啦!你老師沒把“歸類”的規則告訴你;你自己也不知道要分成多少類!
于是你就主觀地決定分成兩組(A組-學霸組;B組-學民組)
接著,看到這三位同學的成績,你一定很想把小王、小紅歸為B組, 小張歸為A組,對吧?你希望得到的聚類結果如表1-4所示,對吧?(在此不闡述對這三位同學進行聚類的具體方法;如果使用k-means聚類方法,得到的也是如表1-4所示的結果)
?
?
1.3 總結
聚類和分類不同在于:
① 分類時知道怎么分,知道具體的分類規則(已經存在了分類規則),也知道被分類的數據對象可能會被分為幾個類別
② 聚類時不知道被聚類的數據對象可能會被分為幾個類別;聚類的規則需要自己設定
總結
- 上一篇: python计算现场得分_浅谈用 Pyt
- 下一篇: spring boot拦截器中获取req