机器学习之聚类算法的原理推导及相关知识总结
文章目錄
- 1、知道幾個關(guān)于"差"的概念
- 2、理解相似度度量的各種方法和相互關(guān)系
- 2.1、歐氏距離
- 2.2、jaccard相似系數(shù)
- 2.3、余弦相似度
- 2.4、Pearson相似系數(shù)
- 2.5、相對熵
- 3、掌握掌握K-Means算法
- 3.1、知道聚類的思想
- 3.2、K-Means算法原理
- 3.3、知道K-Mediods聚類
- 3.4、如何選取K-means的初始值
- 3.5、K-means的目標函數(shù)
- 4、知道聚類的衡量效果的指標
- 5、了解層次聚類的思路和方法
- 6、理解密度聚類
- 7、掌握譜聚類的算法
- 7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)
- 7.2、幾個概念
- di代表行列式的第i行的累加值。 鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0  7.2、了解譜分析的整體的過程
- 7.3、其他譜聚類算法
- 8、知道拉布拉斯矩陣
- 9、知道標簽傳遞算法
1、知道幾個關(guān)于"差"的概念
均值、方差、標準差、協(xié)方差:
協(xié)方差就是這樣一種用來度量兩個隨機變量關(guān)系的統(tǒng)計量,我們可以仿照方差的定義:
2、理解相似度度量的各種方法和相互關(guān)系
2.1、歐氏距離
歐氏距離:p=2(又稱為第二范式)。曼哈頓距離:p=1(又稱為第一范式,p為多少也就為第幾范式)。
2.2、jaccard相似系數(shù)
用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高。
2.3、余弦相似度
2.4、Pearson相似系數(shù)
兩個變量之間的協(xié)方差和標準差的商。
- 當兩個變量的線性關(guān)系增強時,相關(guān)系數(shù)趨于1或-1;
- 當一個變量增大,另一個變量也增大時,表明它們之間是正相關(guān)的,相關(guān)系數(shù)大于0;
- 如果一個變量增大,另一個變量卻減小,表明它們之間是負相關(guān)的,相關(guān)系數(shù)小于0;
- 如果相關(guān)系數(shù)等于0,表明它們之間不存在線性相關(guān)關(guān)系。
2.5、相對熵
又稱為KL散度(Kullback–Leibler divergence,簡稱KLD)[1],信息散度(information divergence),信息增益(information gain)。
余弦相似度與Pearson相似系數(shù)之間的關(guān)系
3、掌握掌握K-Means算法
3.1、知道聚類的思想
先做一個初始的劃分之后通過迭代來改變樣本和簇之間的隸屬關(guān)系。
3.2、K-Means算法原理
1、選取初始的K個類別中心數(shù)據(jù)(可以自定義也可以隨機選取K個樣本)
2、對于每個樣本將其標記為距離類別中心最近的類別(對樣本進行聚類處理)。
3、將每個類別中心更新為隸屬于該類別的所有樣本的均值。
4、重復(fù)2、3直到類別中心的變化小于某閾值(迭代次數(shù)/簇中心變化率/最小平方誤差MSE)
3.3、知道K-Mediods聚類
類別中心的更新依據(jù)從數(shù)據(jù)的均值改為中位數(shù)。
3.4、如何選取K-means的初始值
首先,知道K-means是初值敏感的(K的輸入很關(guān)鍵),也就是每個類別中初始值的選擇是很關(guān)鍵的。那么如何有效的選取K-Means的初始值?
得到第一個初始值后求其他點到該初始值的距離時將距離初始值較遠的點作為簇點的概率大些,這樣就可以得到較好的初始簇點。
3.5、K-means的目標函數(shù)
目標函數(shù):求每個簇的樣本點到每個簇中心的距離的加和;求導(dǎo)后就相當于將周圍點的平均值付給μ作為新的簇中心。
4、知道聚類的衡量效果的指標
均一性和完整性就類似于之前半監(jiān)督中的準確率和召回率
V-measure:均一性和完整性的加權(quán)平均
了解這個輪廓系數(shù)(衡量分類好壞的指標):
先了解上面的簇內(nèi)不相似系數(shù)ai(越小越好):簇內(nèi)的樣本點i到簇內(nèi)其他樣本點平均距離。
簇間不相似系數(shù)bi(越大越好):樣本i到某簇的所有樣本的平均距離。
輪廓系數(shù)含義見下圖
5、了解層次聚類的思路和方法
知道這兩個算法AGNES和DIANA
6、理解密度聚類
了解DBSCAN算法:
算法原理:
1、如果點p的鄰域包含多于m個對象,則創(chuàng)建一個p作為核心對象的新簇。
2、尋找并合并核心對象周圍直接密度可達的對象
3、沒有新點可以更新簇時,算法結(jié)束。
7、掌握譜聚類的算法
7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)
7.2、幾個概念
di代表行列式的第i行的累加值。
鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0
7.2、了解譜分析的整體的過程
任意兩個點之間的相似度可以用徑向量機函數(shù)來求(也就是兩點之間的距離)
過程:
1、由度矩陣D和鄰接矩陣W得到對應(yīng)的L(拉普拉斯矩陣)的特征值行列式。
2、特征值值行列式中的每個λ代表的一個列向量
3、分成K個類別也就是取前K個特征值,如下圖所示。
4、特征值行列式的行向量的第i行也就代表第i個樣本的特征表示
5、有了m個樣本的特征表示就可以利用K-Means來進行聚類處理。
7.3、其他譜聚類算法
不同的譜聚類算法只是對應(yīng)的拉普拉斯矩陣改變了,其他的步驟都沒變。
8、知道拉布拉斯矩陣
9、知道標簽傳遞算法
總結(jié)
以上是生活随笔為你收集整理的机器学习之聚类算法的原理推导及相关知识总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黄山学院计算机协会,教学研究项目结题报告
- 下一篇: 和利时dcs系统服务器设置,和利时DCS