层次聚类分析代码_你知道如何聚类吗?层次聚类与聚类树
聚類分析
在生態學研究當中,有些環境中的對象是連續(或者離散)的,而有些對象是不連續的,聚類的目的是識別在環境中不連續的對象子集,從而探索隱藏在數據背后的屬性特征。聚類分析主要處理那些對象有足夠的相似性被歸于一組,并且確定組與組之間的差異或分離程度。聚類可以分為特征聚類(Vector Clustering)和圖聚類(Graph Clustering)。特征聚類是指根據對象的特征向量矩陣來計算距離或者相關性來實現聚類,例如各種層次聚類和非層次聚類。而圖聚類則針對的是復雜網絡數據,有隨機游走、貪心策略、標簽傳播等算法等。
根據對象歸屬方法,有以下兩種:
⑴硬劃分,也即將總體劃分為不同的部分,每個對象或者變量只能歸屬于某一組(身份信息為0或1)。
⑵模糊劃分,對象歸屬身份信息可以是連續的,也即身份信息可以是0到1中間的任意值。
聚類的結果可以輸出為無層級分組,也可以是具有嵌套結構的層次聚類樹。非約束的聚類分析只是一種數據劃分,不是典型的統計方法,因此不必進行統計檢驗,但是約束的聚類分析(多元回歸樹)需要進行統計檢驗。
層次聚類
層次聚類(hierarchical clustering)就是通過對數據集按照某種方法進行層次分解,直到滿足某種條件為止。在R中最常用的為stats包中的hclust()函數。
⑴單連接聚合聚類
單連接聚合聚類(singlelinkage agglomerative clustering)也稱作最近鄰分類(nearestneighbour sorting),依據最短的成對距離或最大相似性來依次連接對象直到連接完畢,兩個組之間最近的兩個對象之間距離即為組的距離。此方法一般使用弦距離矩陣(歐氏距離)進行分析,在hclust()函數中為"single"。
⑵完全連接聚合聚類
完全連接聚合聚類(completelinkage agglomerative clustering)也稱作最遠鄰分類(furthestneighbour sorting),依據最遠距離決定一個對象或者一個組是否與另一個組聚合,所有對象之間的距離必須完全計算然后進行比較。単連接聚合聚類更容易體現數據的梯度,而完全連接聚合聚類分類組之間差異更加明顯。在在hclust()函數中為"complete"。
⑶平均聚合聚類
平均聚合聚類(averageagglomerative clustering)是一類基于對象之間平均相異性或者聚類簇形心(centroid)的進行聚類的方法。一個對象加入一個組依據的是這個對象與這個組成員的平均距離。在hclust()函數中有等權重算術平均聚類"average"(UPGMA)、不等權重算術平均聚類"mcquitty"(WPGMA)、等權重形心聚類"centroid"(UPGMC)、不等權重形心聚類"median"(WPGMC)四種方法。在生態學中Bray-Curtis距離矩陣一般使用方法"average"進行分析,其聚類樹結構介于單連接和完全連接聚類之間。
⑷最小方差聚類
Ward最小方差聚類是一種基于最小二乘法線性模型準則的聚類方法。分組的依據是使組內距離平方和(方差)最小化,由于使用了距離的平方,常常使聚類樹基部過于膨脹,可取平方根再進行可視化。在hclust()函數中有"ward.D"、"ward.D2"兩種方法。
聚類樹
聚類樹是聚類分析最常用的可視化方法。這里以微生物群落抽平后的otu table數據為例進行分析,計算Bray-Curtis距離矩陣并進行UPGMA聚類:
#讀取群落數據并計算Bray-Curtis距離矩陣 data=read.table(file="sample.subsample.otu_table.txt", header=T, check.names=FALSE) rownames(data)=data[,1] data=data[,-1] library(vegan) data=decostand(data, MARGIN=2, "total") otu=t(data) otu_dist=vegdist(otu, method="bray", diag=TRUE, upper=TRUE, p=2) #進行聚類分析并作圖 hclust=hclust(otu_dist, method="average") plot(hclust)其中縱坐標為Bray-Curtis距離,越往樹的基部(上圖頂端)距離越大,樹枝節點對應的縱坐標值為兩個對象/聚類簇之間的距離/平均距離。
更多的展示方法:
聚類簇劃分與美化:
比較聚類
不同對象之間的關系可以通過聚類樹展現出來,通過聚類樹我們可以觀察哪些對象比較相似,哪些對象距離較遠,從而對所有對象的關系有一個整體的把握。然而,這時候我們并沒有獲得一個明顯的聚類簇劃分,也即不知道對象可以劃分為幾類、誰和誰歸為一類,以及這個聚類結果是不是合理,這可以通過比較聚類來實現。
具體代碼與數據請看原文:
層次聚類與聚類樹?mp.weixin.qq.com比較聚類:我該劃分多少個聚類簇??mp.weixin.qq.com總結
以上是生活随笔為你收集整理的层次聚类分析代码_你知道如何聚类吗?层次聚类与聚类树的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php中的echo单引号_PHP的数据类
- 下一篇: mysql where从句_MySQL死