请详细描述listview与gridview的异同点_三种聚类分析的异同
作者:任儒峰? ? 封面:吉江
? ? ? ?前面我們團隊分別講了k-means均值聚類、系統聚類和二階聚的理論和各類方法的SPSS實操,今天我們一起來回顧和總結三種聚類,分析它們的異同,分析它們的優劣以及告訴大家如何選擇。
1.回顧總結
(1)K-means均值聚類,采用歐式距離做為相似度指標,將相似度高的數據對象劃分為一類,通過反復迭代計算新質心,并且樣本觀測所屬的類會不斷的調整,使得新質心與所有數據對象的平方誤差總和最小的一種迭代型快速聚類算法,變量類型為連續型變量,需要主動設定分類數。
優勢:可快速處理大數據,簡單快速,可設定初始質心。
劣勢:為當數據量大或復雜時,給K值的設定增大了難度;初始質心的劃分對聚類結果有較大的影響;該算法對于離群點,異常點是敏感的;由于K-means聚類算法是跟據歐式距離來劃分,所以只能發現球狀簇。
(2)系統聚類,又稱層次聚類和譜系分析,通過度量數據之間的距離遠近,將數據分類,變量類型含有連續變量和分類變量,可以像k-means算法一般,指定類別個數或限定類別個數范圍。
優勢:可以對個案聚類或者對變量聚類;類間距離計算方法多,可根據具體的情況具體使用(參見系統聚類的度量方法);可對數據轉化,標準化處理。
劣勢:不能同時處理兩種類型變量;相比快速聚類,當變量復雜和數據量大時,聚類速度較慢;單向聚類,個案被分入某類時,不能跳出。
(3)二階聚類,一種通過預聚類和聚類這兩步聚類來分析大型數據集的算法,變量類型含有分類變量和連續變量,類別個數自動確定。
優勢:可同時分析連續變量和多個分類變量;可自動分析輸出最優的聚類數目;可處理大型數據集。
劣勢:分類變量較少時,容易受其分布影響。
2.?如何選擇
? ? ? ? 學了各種聚類分析方法后,我們的同學可能會產生這樣的疑惑,那遇到要需聚類的數據對象,應該選擇那種聚類方法呢?首先,我們要了解數據對象的結構和我們對聚類的需求,換句話說,了解自己,目的明確。
? ? ? ? 例如我們的數據對象結構中,只包含有數值型變量,同樣我們對分類數量K值也有預期判斷,這時,可以用K-means均值聚類,系統會根據和這些分類點距離的遠近,把所有點分成K類。?如果我們的數據對象既包含樣品,也就是觀測值,又包含變量,需要根據觀測值來對變量聚類,而且,我們對分類數量又沒有預期判斷,這時可以選擇系統聚類,現實應用中,有將系統聚類和K-means快速聚類相結合使用,使用系統聚類確定的分類數和得到的質心,作為快速聚類的分類數和初始質心,使用系統聚類查出異常值,去除后,進行快速聚類,因快速聚類的劣勢之一是對異常值敏感,二者的結合可謂是取長補短。對于有些數據對象,既含有不止一種分類變量,又含有連續變量,當我們需要同時對分類變量和連續變量聚類時,此時,可使用二階聚類法,總而言之,需要大家多多練習,一是摸清分類方法,二是了解數據結構,三是清晰分類目的,結合實際情況選擇合適的分類方法。
加油各位,一起努力!
SPSS學堂出書啦!(點擊獲知詳情)
點擊下方鏈接購買:?
學堂君的歷史合輯:
菜鳥系列問卷設計與統計分析量表信效度分析線性回歸Logistic回歸曲線回歸聚類分析時間序列常見問題神經網絡多維尺度分析C4.5算法生存分析正態檢驗對應分析問卷數據分析權重賦值判別分析潛在類別模型調節效應與中介效應分析KNN算法調節中介典型相關分析統計方法選擇ROC曲線分析Meta分析結構方程模型精品推文匯總SPSS實現機器學習在信用風險識別中的應用歡迎添加:
【數據分析服務】請點擊菜菜幫工作室正式上線
【社群服務助手】請點擊SPSS學堂會員3群招募
【加入團隊】請點擊招募,我們是認真的!
總結
以上是生活随笔為你收集整理的请详细描述listview与gridview的异同点_三种聚类分析的异同的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: rs232 python_利用pytho
- 下一篇: 插值法补齐缺失数据_关于数据清洗的常见方