你聚类个数是靠拍的?
總第210篇/張俊紅
關于聚類算法,大家應該都有一定的了解,就是把一群人或者其他數據分成若干類,大家習慣叫做n類,那這個n是怎么確定的呢?很多人可能會說靠拍,靠拍確實也不是不可以。但是總覺得不太科學。那應該怎么辦呢?因為聚類是無監督學習,也就是沒有正確答案,沒有辦法知道分幾類是正確的,那應該怎么辦呢,是不是只能靠拍了?
我們想想聚類的本質,其實就是把一群人(暫且可以理解成我們是對人進行分類)分成若干類,我們希望得到的一個結果就是,類與類之間差別(距離)要盡可能的大,同一類內部之間的差別要盡可能小,因為這樣的結果才是我們聚類的目的呀。明確了目標以后,我們就可以開始嘗試了,看n取多少的時候結果比較接近我們的目標。這個目標有一個比較正式的名字叫做輪廓系數(silhouette coefficient)。
輪廓系數的計算步驟如下:
計算樣本i到同一類中其他樣本的平均距離ai。ai越小,說明樣本i與同類中其他樣本的距離越近,即越相似。我們將ai稱為樣本i的類別內不相似度。
計算樣本i到其他類別的所有樣本的平均距離bi,稱為樣本i與其他類之間的不相似度。bi越大,說明樣本i與其他類之間距離越遠,即越不相似。
根據樣本i的簇內不相似度ai和簇間不相似度bi ,定義樣本i的輪廓系數為:
si的值介于[-1,1]之間,越接近于1說明bi越大ai越小,類別內部越相似,類別之間越不相似;越接近于0說明類別內部和類別之間的距離差不多,分界線很不明顯;越接近于-1說明類別之間越相似類別內部反而不相似。
了解清楚原理以后,我們來看下在Python中怎么實現,這個系數在Sklearn庫中是有現成的包可以供我們使用的:
silhouette_score是獲取模型總體的輪廓系數,
silhouette_samples是獲取每個樣本的輪廓系數。
接下來我們來一個實戰案例給大家演示下:
首先把我們需要用到的包導入進來:
from?sklearn.datasets?import?make_blobs from?sklearn.cluster?import?KMeans from?sklearn.metrics?import?silhouette_samples,?silhouette_score import?matplotlib.pyplot?as?plt import?matplotlib.cm?as?cm import?numpy?as?np接下來生成一組模擬數據以備模型使用:
X,?y?=?make_blobs(n_samples=500,n_features=2,centers=4,cluster_std=1,center_box=(-10.0,?10.0),shuffle=True,random_state=1)生成數據以后,開始訓練模型:
kmeans?=?KMeans(n_clusters?=?3,random_state?=?0) kmeans.fit(X) pred_y?=?kmeans.predict(X)??#?預測點在哪個聚類中 print(silhouette_score(X,?pred_y))上面模型中我們隨便給定一個類別數3,會得出如果把我們的模擬數據生成3類的話輪廓系數是0.58。3個是不是最好的類別數呢?不知道,我們就試吧,寫一個for循環,遍歷[2,20]類,代碼如下:
score?=?[] for?n?in?range(2,20):kmeans?=?KMeans(n_clusters?=?n,random_state?=?0)kmeans.fit(X)pred_y?=?kmeans.predict(X)??#?預測點在哪個聚類中score.append([n,silhouette_score(X,?pred_y)]) pd.DataFrame(score).set_index(0).plot(legend?=?False) plt.xlabel("聚類個數") plt.ylabel("輪廓系數")運行上面代碼可以得到不同類別數對應的輪廓系數值,我們根據輪廓系數和業務需求雙重目標來確定最佳的類別數。為什么還要考慮業務需求呢?因為我們聚類的結果一般都是需要拿給業務用的,比如用在精細化運營上,如果類別太多,可能不利于業務使用。所以要綜合考慮輪廓系數和業務訴求。
如果想要獲取每個樣本的輪廓系數,則可以使用silhouette_samples函數,使用方法與silhouette_score是一樣的,也是需要給定x值和預測的y值。
silhouette_samples(X,?pred_y)掌握了輪廓系數法,以后聚類個數再也不用靠拍了。
公眾號推出根據關鍵詞搜索歷史文章的工具,點擊下面鏈接可以試試:
總結
以上是生活随笔為你收集整理的你聚类个数是靠拍的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 讲讲什么是帕累托最优
- 下一篇: 黑马程序员培训机构学费是多少钱?(IT在