SAS聚类分析(系统聚类cluster,动态聚类fastclus,变量聚类varclus)
1.?從21各工廠抽了同類產品,每個產品檢測了兩個指標,測得的數據如下(已作了適當變換)欲將各廠產品的質量情況進行分類。
| No | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| X1 | 0 | 0 | 2 | 2 | 4 | 4 | 5 | 6 | 6 | 7 | -4 | -2 | -3 | -3 | -5 | 1 | 0 | 0 | -1 | -1 | -3 |
| X2 | 6 | 5 | 5 | 3 | 4 | 3 | 1 | 2 | 1 | 0 | 3 | 2 | 2 | 0 | 2 | 1 | -1 | -2 | -1 | -3 | -5 |
2. 數據見下表為某年各地農民生活費用支出數據,試對這些指標做變量聚類分析
| 地區 | 食品 | 衣著 | 家庭設備用品及服務 | 醫療保健 | 交通和 通信 | 教育文化娛樂服務 | 居住 | 雜項商品和服務 |
| 北京 | 4560.52 | 1442.42 | 977.47 | 1322.36 | 2173.26 | 2514.76 | 1212.89 | 621.74 |
| 天津 | 3680.22 | 864.89 | 634.39 | 1049.33 | 1092.87 | 1452.17 | 1368.2 | 405.99 |
| 河北 | 2492.26 | 849.58 | 460.27 | 737.43 | 875.43 | 827.72 | 864.92 | 235.88 |
| 山西 | 2252.5 | 1016.69 | 441.82 | 589.97 | 825.18 | 1007.92 | 830.38 | 206.48 |
| 內蒙古 | 2323.55 | 1168.93 | 464.55 | 555 | 928.48 | 1052.65 | 802.26 | 371.19 |
| 遼寧 | 3102.13 | 846.91 | 362.1 | 767.13 | 797.64 | 853.92 | 909.42 | 348.23 |
| 吉林 | 2457.21 | 907.61 | 318.65 | 671.44 | 815.02 | 890.22 | 984.95 | 307.56 |
| 黑龍江 | 2215.68 | 971.44 | 319.37 | 634.3 | 665.01 | 843.94 | 755.32 | 250.37 |
| 上海 | 5248.95 | 1026.87 | 877.59 | 762.92 | 2332.83 | 2431.74 | 1435.72 | 645.13 |
| 江蘇 | 3462.66 | 886.82 | 647.52 | 600.69 | 1203.45 | 1467.36 | 997.53 | 362.56 |
| 浙江 | 4393.4 | 1383.63 | 615.45 | 852.27 | 2492.01 | 1946.15 | 1229.25 | 436.37 |
| 安徽 | 3091.28 | 869.55 | 336.99 | 441.42 | 788.25 | 869.23 | 694.17 | 203.83 |
| 福建 | 3854.26 | 784.71 | 525.65 | 513.61 | 1232.7 | 1321.33 | 1233.49 | 341.96 |
| 江西 | 2636.93 | 725.72 | 451.32 | 357.03 | 600.16 | 894.58 | 742.93 | 236.87 |
| 山東 | 2711.65 | 1091.22 | 526.29 | 624.06 | 1175.57 | 1201.97 | 838.17 | 299.48 |
| 河南 | 2215.32 | 919.31 | 431.02 | 520.57 | 762.08 | 847.12 | 737 | 252.76 |
| 湖北 | 2868.39 | 877.01 | 401.22 | 517.19 | 763.14 | 997.74 | 752.56 | 220.08 |
| 湖南 | 2850.94 | 868.23 | 513.63 | 632.52 | 965.09 | 1182.18 | 871.7 | 285 |
| 廣東 | 4503.86 | 719.26 | 633.03 | 707.86 | 2394.66 | 1813.86 | 1254.69 | 405 |
| 廣西 | 2857.4 | 477.67 | 360.62 | 401.06 | 785.01 | 850.9 | 826.86 | 232.43 |
| 海南 | 3097.71 | 375.42 | 405.81 | 369.33 | 1154.87 | 791.24 | 743.6 | 188.8 |
| 重慶 | 3415.92 | 1038.98 | 615.74 | 705.72 | 976.02 | 1449.49 | 954.56 | 242.26 |
| 四川 | 2838.22 | 754.93 | 505.83 | 449.87 | 1009.35 | 976.33 | 728.43 | 261.85 |
| 貴州 | 2649.02 | 832.74 | 446.53 | 329.77 | 775.07 | 938.37 | 627.23 | 249.66 |
| 云南 | 3102.46 | 745.08 | 335.14 | 600.08 | 1076.93 | 754.69 | 585.35 | 180.07 |
| 西藏 | 3107.9 | 734.83 | 211.1 | 221.7 | 694.21 | 359.34 | 612.67 | 250.82 |
| 陜西 | 2588.91 | 768.47 | 478.58 | 612.3 | 824.46 | 1280.14 | 746.59 | 253.84 |
| 甘肅 | 2408.37 | 854 | 403.8 | 562.74 | 703.07 | 1034.42 | 716.35 | 291.46 |
| 青海 | 2366.42 | 724.96 | 420.31 | 542.93 | 753.07 | 793.72 | 653.04 | 275.66 |
| 寧夏 | 2444.98 | 874.39 | 480.7 | 578.75 | 774.57 | 846.72 | 890.97 | 314.49 |
| 新疆 | 2386.97 | 953.03 | 364.11 | 472.35 | 765.72 | 819.72 | 698.66 | 269.45 |
實驗代碼:
/*1、系統聚類*/ proc import out=temp1 datafile="C:\Users\86166\Desktop\IT\SAS實驗\實驗10\1.xls" DBMS=EXCEL2000 replace; run; proc cluster data=temp1 method=single std pseudo; /*proc cluster data=temp1 method=ward std pseudo ccc outtree=temp2; var x1-x6 id group*/ proc tree hor graphics; run; /*2、動態聚類*/ data temp1; input area$ x1-x8 @@; cards; 北京 4560.52 1442.42 977.47 1322.36 2173.26 2514.76 1212.89 621.74 天津 3680.22 864.89 634.39 1049.33 1092.87 1452.17 1368.2 405.99 河北 2492.26 849.58 460.27 737.43 875.43 827.72 864.92 235.88 山西 2252.5 1016.69 441.82 589.97 825.18 1007.92 830.38 206.48 內蒙古 2323.55 1168.93 464.55 555 928.48 1052.65 802.26 371.19 遼寧 3102.13 846.91 362.1 767.13 797.64 853.92 909.42 348.23 吉林 2457.21 907.61 318.65 671.44 815.02 890.22 984.95 307.56 黑龍江 2215.68 971.44 319.37 634.3 665.01 843.94 755.32 250.37 上海 5248.95 1026.87 877.59 762.92 2332.83 2431.74 1435.72 645.13 江蘇 3462.66 886.82 647.52 600.69 1203.45 1467.36 997.53 362.56 浙江 4393.4 1383.63 615.45 852.27 2492.01 1946.15 1229.25 436.37 安徽 3091.28 869.55 336.99 441.42 788.25 869.23 694.17 203.83 福建 3854.26 784.71 525.65 513.61 1232.7 1321.33 1233.49 341.96 江西 2636.93 725.72 451.32 357.03 600.16 894.58 742.93 236.87 山東 2711.65 1091.22 526.29 624.06 1175.57 1201.97 838.17 299.48 河南 2215.32 919.31 431.02 520.57 762.08 847.12 737 252.76 湖北 2868.39 877.01 401.22 517.19 763.14 997.74 752.56 220.08 湖南 2850.94 868.23 513.63 632.52 965.09 1182.18 871.7 285 廣東 4503.86 719.26 633.03 707.86 2394.66 1813.86 1254.69 405 廣西 2857.4 477.67 360.62 401.06 785.01 850.9 826.86 232.43 海南 3097.71 375.42 405.81 369.33 1154.87 791.24 743.6 188.8 重慶 3415.92 1038.98 615.74 705.72 976.02 1449.49 954.56 242.26 四川 2838.22 754.93 505.83 449.87 1009.35 976.33 728.43 261.85 貴州 2649.02 832.74 446.53 329.77 775.07 938.37 627.23 249.66 云南 3102.46 745.08 335.14 600.08 1076.93 754.69 585.35 180.07 西藏 3107.9 734.83 211.1 221.7 694.21 359.34 612.67 250.82 陜西 2588.91 768.47 478.58 612.3 824.46 1280.14 746.59 253.84 甘肅 2408.37 854 403.8 562.74 703.07 1034.42 716.35 291.46 青海 2366.42 724.96 420.31 542.93 753.07 793.72 653.04 275.66 寧夏 2444.98 874.39 480.7 578.75 774.57 846.72 890.97 314.49 新疆 2386.97 953.03 364.11 472.35 765.72 819.72 698.66 269.45 ; run; proc fastclus data=temp1 maxc=4 list out=temp2; var x1-x8; id area; proc candisc data=temp2 out=temp3; var x1-x8; class cluster; run; /*3、變量聚類 法一:行列轉換后用系統聚類分析*/ proc transpose data=temp1 out=temp2; var x1-x8; proc print data=temp2; proc cluster data=temp2 method=single std ; var COL1-COL31; id _NAME_; proc tree hor graphics; run; /*法二:使用varclus方差分析*/ proc varclus data=temp1 trace outtree=test; /*centroid minc=4*/ var x1-x8; proc tree data=test horizontal; run;實驗結果:——》聚類分析結果壓縮包
?實驗分析:
由RSQ統計量得,當NCL為3時,下一步NCL變成2的適合RSQ的值驟降,說明當將數據分為3類比較合適,所以依次可以將21個工廠的產品質量分類三類:{1,2,3,4,5,6,7,8,9,10},{11,12,13,14,15},{16,17,18,19,20,21}。
上述結果中產生了三種情況,第一種用主成分分析法不指定最小聚類數得到分類結果為{x1,x2,x3,x4,x5,x6,x7,x8};第二種用重心法且指定最小聚類數為4得到分類結果為{x1,x5},{x4,x7},{x3,x6,x8},{x2};第三種用行列轉置的方法得到分類結果為{x1},{x2,x7},{x5,x6},{x3,x4,x8}。
利用專業知識和經驗分析知:可以之間采用第三種分類的結果比較合適,食品消費為單獨一類;居住和衣著有著相關聯系,居住地好的地方普遍衣著消費更多;對于農民來說交通和通信無非是用在教育文化和娛樂上產生的,所以分為一類;家庭設備,醫療保健和其他雜項商品和服務對于中國的廣大農民來說都屬于不必備的東西屬于基本生活之外的額外需求,所以分為一類。
樣品數量1~100的時候使用系統聚類proc cluster,樣品數量100~100000的時候使用動態聚類proc fastclus,pseudo是得到PSF和PSFT2即偽F和偽t2統計量來判斷分幾類;由R2值來看,某個類驟降的時候,則是分為幾個類的標準,偽F值是出現峰值的時候,分類以這個峰值所在類為標準,聚類分析有R型對變量或是指標進行聚類,Q型對樣品進行聚類。而分別兩者的統計量一個是相似系數,一個是距離。對于變量聚類的varclus方法,在結果中能直接得到分類結果,也可以自行分析。
總結
以上是生活随笔為你收集整理的SAS聚类分析(系统聚类cluster,动态聚类fastclus,变量聚类varclus)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java工程师是做什么的?
- 下一篇: 什么是LHS查询和RHS查询