SPSS聚类与判别
實驗目的
學會使用SPSS簡單操作,掌握聚類與判別。
實驗要求
使用SPSS。
實驗內容
實驗步驟
?。?)層次聚類法分析實例——為了反映中國各地區生活水平差異性,本報告對2002年中國部分省市的國民經濟數據進行聚類分析,依次了解我國各省市的生活差異水平,詳見“lx17.sav文件”。SPSS操作,點擊【分析】→【分類】→【系統聚類】,在打開的【系統聚類分析】對話框中,把GDP、Pindex_Revise等5個變量選入【變量】中,把省份選入【個案標注依據】,點擊【圖】,勾選【譜系圖】,“冰柱圖塊”勾選【無】→【繼續】。點擊【方法】,下拉列表,選擇【瓦爾德法】,“轉換值塊”勾選【Z得分】→【繼續】。點擊【保存】→【解的范圍】,3~8→【繼續】。單擊【確定】。
運行分析,
|
集中計劃 |
||||||
|
階段 |
組合聚類 |
系數 |
首次出現聚類的階段 |
下一個階段 |
||
|
聚類 1 |
聚類 2 |
聚類 1 |
聚類 2 |
|||
|
1 |
3 |
17 |
.111 |
0 |
0 |
2 |
|
2 |
3 |
12 |
.246 |
1 |
0 |
15 |
|
3 |
5 |
7 |
.407 |
0 |
0 |
4 |
|
4 |
5 |
8 |
.624 |
3 |
0 |
13 |
|
5 |
20 |
27 |
.857 |
0 |
0 |
11 |
|
6 |
29 |
30 |
1.121 |
0 |
0 |
20 |
|
7 |
28 |
31 |
1.390 |
0 |
0 |
20 |
|
8 |
4 |
14 |
1.666 |
0 |
0 |
10 |
|
9 |
15 |
23 |
2.102 |
0 |
0 |
14 |
|
10 |
4 |
25 |
2.751 |
8 |
0 |
21 |
|
11 |
20 |
24 |
3.419 |
5 |
0 |
12 |
|
12 |
20 |
22 |
4.167 |
11 |
0 |
19 |
|
13 |
5 |
6 |
5.010 |
4 |
0 |
19 |
|
14 |
15 |
16 |
6.127 |
9 |
0 |
23 |
|
15 |
3 |
18 |
7.428 |
2 |
0 |
18 |
|
16 |
21 |
26 |
8.813 |
0 |
0 |
21 |
|
17 |
11 |
19 |
10.248 |
0 |
0 |
22 |
|
18 |
3 |
10 |
12.010 |
15 |
0 |
23 |
|
19 |
5 |
20 |
13.835 |
13 |
12 |
25 |
|
20 |
28 |
29 |
16.130 |
7 |
6 |
27 |
|
21 |
4 |
21 |
18.530 |
10 |
16 |
25 |
|
22 |
11 |
13 |
21.298 |
17 |
0 |
28 |
|
23 |
3 |
15 |
24.620 |
18 |
14 |
29 |
|
24 |
1 |
2 |
28.412 |
0 |
0 |
26 |
|
25 |
4 |
5 |
32.928 |
21 |
19 |
27 |
|
26 |
1 |
9 |
41.666 |
24 |
0 |
28 |
|
27 |
4 |
28 |
54.441 |
25 |
20 |
29 |
|
28 |
1 |
11 |
68.972 |
26 |
22 |
30 |
|
29 |
3 |
4 |
87.757 |
23 |
27 |
30 |
|
30 |
1 |
3 |
150.000 |
28 |
29 |
0 |
需要判別數據應該分成多少類別時,聚類系數那一列有著很好的參考價值。
?。?)方案一:分成6類或者5類。
第1類:上海;第二類:北京、天津;第3類:河北、湖北、安徽、湖南、江蘇、山東、四川、河南;第4類:廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏;第5類:浙江、廣東、福建;第6類:青海、寧夏、甘肅、新疆。
事實上,由于在分成6類時,第1個類別只有上海一個城市,所以在這種聚類方法中更傾向于將31個省市分成5類,即將第1類和第2類合并為1類。
(2)方案二:分成3類或2類。
第1類:上海、北京、天津、浙江、廣東、福建;第2類:河北、湖北、安徽、湖南、江蘇、山東、四川、河南;第3類:青海、寧夏、甘肅、新疆、廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏。
其中第2類和第3類可以并為1類,這時總類別數2。但是由于分成兩類區分性不強。常更傾向于分成3類。
代碼:
1 DATASET DECLARE D0.6606863886229252. 2 PROXIMITIES GDP Population City_Consume Rural_Consume Pindex_revise 3 /MATRIX OUT(D0.6606863886229252) 4 /VIEW=CASE 5 /MEASURE=SEUCLID 6 /PRINT NONE 7 /ID=province 8 /STANDARDIZE=VARIABLE Z. 9 10 CLUSTER 11 /MATRIX IN(D0.6606863886229252) 12 /METHOD WARD 13 /ID=province 14 /PRINT SCHEDULE 15 /PLOT DENDROGRAM 16 /SAVE CLUSTER(3,8).
01
進一步分析,【分析】→【比較平均值】→【平均值】。在【平均值】對話框中,把GDP等5個變量選入【因變量列表】,把Ward Method[CLU5_3]選入【層】中。
|
報告 |
|||||
|
平均值 |
|||||
|
Ward Method |
人均GDP |
人口數 |
城鎮居民家庭平均每人全年消費性支出 |
農村居民家庭平均每人生活消費支出 |
各地區居民消費價格指數-100 |
|
1 |
27686.4786 |
1343.0000 |
8415.3467 |
3452.0620 |
1.4333 |
|
2 |
7751.2991 |
7468.0625 |
4927.4875 |
1704.3075 |
.7250 |
|
3 |
6286.3535 |
3143.6154 |
4694.0031 |
1447.7899 |
.3692 |
|
4 |
13582.3095 |
5437.6667 |
7355.7100 |
2895.1985 |
-.7333 |
|
5 |
5787.7307 |
1388.0000 |
4661.4250 |
1299.2102 |
3.0500 |
|
總計 |
9377.1057 |
4080.8226 |
5367.7681 |
1828.8500 |
.8032 |
代碼:
1 MEANS TABLES=GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3 2 /CELLS=MEAN.
02
【分析】→【比較平均值】→【單因素ANOVA檢驗】,在打開的對話框中,把GDP等5個變量選入【因變量列表】,把Ward Method[CLU5_3]選入【層】中。
|
ANOVA |
||||||
|
平方和 |
自由度 |
均方 |
F |
顯著性 |
||
|
人均GDP |
組間 |
1255616794.261 |
4 |
313904198.565 |
28.659 |
.000 |
|
組內 |
284777747.752 |
26 |
10952990.298 |
|||
|
總計 |
1540394542.013 |
30 |
||||
|
人口數 |
組間 |
160221068.312 |
4 |
40055267.078 |
21.060 |
.000 |
|
組內 |
49451014.962 |
26 |
1901962.114 |
|||
|
總計 |
209672083.274 |
30 |
||||
|
城鎮居民家庭平均每人全年消費性支出 |
組間 |
49166873.689 |
4 |
12291718.422 |
23.651 |
.000 |
|
組內 |
13512763.997 |
26 |
519721.692 |
|||
|
總計 |
62679637.686 |
30 |
||||
|
農村居民家庭平均每人生活消費支出 |
組間 |
14449596.776 |
4 |
3612399.194 |
16.422 |
.000 |
|
組內 |
5719138.558 |
26 |
219966.868 |
|||
|
總計 |
20168735.335 |
30 |
||||
|
各地區居民消費價格指數-100 |
組間 |
30.964 |
4 |
7.741 |
7.360 |
.000 |
|
組內 |
27.346 |
26 |
1.052 |
|||
|
總計 |
58.310 |
30 |
||||
代碼:
1 ONEWAY GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3 2 /MISSING ANALYSIS.
03
從上述兩個表看出,各個類別之間的5個變量都是有顯著性差異的,且這些差異均具有統計意義。
所以最終的特征類別描述:
第1類:高生活水平城市,北京、上海、天津。
第2類:人口眾多,生活水平一般。北、湖北、安徽、湖南、江蘇、山東、四川、河南;
第3類:生活水平一般,人口較少。廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏;
第4類:消費水平相對人均GDP較高,平均物價水平較低,消費價格指數都小于100。浙江、廣東、福建;
第5類:人口稀少,生活水平低,平均物價水平高。青海、寧夏、甘肅、新疆。
K-均值聚類法(又叫快速聚類)分析示例——移動電話客戶使用手機情況,數據詳見mobile.sav文件。SPSS操作,先對數據進行描述性統計,【分析】→【描述統計】→【描述】,
L-在【描述】對話框中,把前6個變量選入【變量】中。點擊【選項】,勾選【平均值】、【標準差】、【最大值】、【最小值】→【繼續】,單擊【確定】。(標準化數據:【分析】→【描述統計】→【描述】,在【描述】對話框中,把前6個變量選入【變量】中。勾選【將標準化值另存為變量】)?!痉治觥?rarr;【分類】→【K-均值聚類分析】,在打開的對話框中,把標準化的6個變量選入【變量】中,把客戶編號選入【個案標注依據】,【聚類數】填5;點擊【迭代】,【最大迭代次數】填寫100→【繼續】。點擊【保存】,勾選【聚類成員】→【繼續】。點擊【選項】→【統計】,勾選【ANOVA表】→【繼續】。單擊【確定】。
|
描述統計 |
|||||
|
N |
最小值 |
最大值 |
均值 |
標準 偏差 |
|
|
工作日上班時期電話時長 |
3395 |
5.77 |
2846.40 |
708.3469 |
515.25799 |
|
工作日下班時期電話時長 |
3395 |
3.20 |
1058.40 |
301.8049 |
195.33152 |
|
周末電話時長 |
3395 |
.66 |
205.00 |
54.1649 |
35.26109 |
|
國際電話時長 |
3395 |
.01 |
1014.82 |
172.3492 |
146.68342 |
|
總通話時長 |
3395 |
54.81 |
3423.30 |
1064.3168 |
560.80133 |
|
平均每次通話時長 |
3395 |
.63 |
53.58 |
4.1267 |
3.80400 |
|
有效個案數(成列) |
3395 |
||||
代碼:
1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins 2 average_mins 3 /STATISTICS=MEAN STDDEV MIN MAX.
04
從表中可見,盡管數據的量綱是一樣的,但是數據的取值卻仍然有很大差別,平均數據從最小的4.1267到最大的1046.3168等。為了消除這種差異,需要事先對數據標準化。
代碼:
1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins 2 average_mins 3 /SAVE 4 /STATISTICS=MEAN STDDEV MIN MAX.
05
|
初始聚類中心 |
|||||
|
聚類 |
|||||
|
1 |
2 |
3 |
4 |
5 |
|
|
Zscore: 工作日上班時期電話時長 |
3.21791 |
-1.16165 |
2.64849 |
.19729 |
1.93001 |
|
Zscore: 工作日下班時期電話時長 |
-.65276 |
-1.26557 |
-1.03058 |
3.87339 |
-.17204 |
|
Zscore: 周末電話時長 |
3.72181 |
3.11491 |
-.02169 |
-.90652 |
-1.21281 |
|
Zscore: 國際電話時長 |
4.90995 |
-1.16636 |
.29390 |
2.77257 |
.53252 |
|
Zscore: 總通話時長 |
2.96323 |
-1.31226 |
2.07308 |
1.47340 |
1.63709 |
|
Zscore: 平均每次通話時長 |
-.51651 |
.30760 |
5.49282 |
-.22792 |
12.99993 |
它列出每一類別初始定義的中心點,實際上就是數據集中的某一條記錄,其選擇的原則是使得各初始類中心的散點在所有變量構成的空間中離的盡可能遠,而且能盡量廣地分布在空間中。
|
迭代歷史記錄a |
|||||
|
迭代 |
聚類中心中的變動 |
||||
|
1 |
2 |
3 |
4 |
5 |
|
|
1 |
3.894 |
3.450 |
3.201 |
3.605 |
3.458 |
|
2 |
.829 |
.207 |
.725 |
.312 |
1.943 |
|
3 |
.374 |
.127 |
.457 |
.262 |
.964 |
|
4 |
.208 |
.100 |
.330 |
.206 |
.504 |
|
5 |
.156 |
.060 |
.219 |
.141 |
.421 |
|
6 |
.116 |
.047 |
.168 |
.116 |
.337 |
|
7 |
.104 |
.041 |
.164 |
.105 |
.134 |
|
8 |
.110 |
.035 |
.140 |
.111 |
.188 |
|
9 |
.077 |
.028 |
.105 |
.101 |
.081 |
|
10 |
.069 |
.022 |
.117 |
.082 |
.057 |
|
11 |
.054 |
.020 |
.148 |
.079 |
.000 |
|
12 |
.028 |
.030 |
.198 |
.054 |
.063 |
|
13 |
.063 |
.055 |
.309 |
.044 |
.119 |
|
14 |
.105 |
.077 |
.363 |
.058 |
.263 |
|
15 |
.126 |
.074 |
.276 |
.068 |
.193 |
|
16 |
.118 |
.029 |
.140 |
.048 |
.152 |
|
17 |
.072 |
.016 |
.108 |
.049 |
.172 |
|
18 |
.046 |
.008 |
.080 |
.053 |
.087 |
|
19 |
.037 |
.011 |
.076 |
.050 |
.083 |
|
20 |
.034 |
.010 |
.055 |
.036 |
.113 |
|
21 |
.020 |
.009 |
.051 |
.036 |
.113 |
|
22 |
.017 |
.008 |
.028 |
.016 |
.115 |
|
23 |
.026 |
.006 |
.026 |
.014 |
.000 |
|
24 |
.010 |
.004 |
.032 |
.023 |
.000 |
|
25 |
.010 |
.004 |
.020 |
.015 |
.000 |
|
26 |
.009 |
.004 |
.013 |
.009 |
.053 |
|
27 |
.006 |
.002 |
.006 |
.007 |
.000 |
|
28 |
.000 |
.004 |
.004 |
.009 |
.000 |
|
29 |
.000 |
.003 |
.006 |
.006 |
.000 |
|
30 |
.000 |
.000 |
.010 |
.010 |
.000 |
|
31 |
.005 |
.002 |
.011 |
.009 |
.000 |
|
32 |
.008 |
.001 |
.007 |
.005 |
.000 |
|
33 |
.004 |
.000 |
.002 |
.001 |
.000 |
|
34 |
.007 |
.000 |
.004 |
.000 |
.000 |
|
35 |
.000 |
.000 |
.000 |
.000 |
.000 |
|
a. 由于聚類中心中不存在變動或者僅有小幅變動,因此實現了收斂。任何中心的最大絕對坐標變動為 .000。當前迭代為 35。初始中心之間的最小距離為 7.609。 |
|||||
從上表可以看出,每一次迭代過程中類別中心的變化。類別中心點變化越來越小,知道趨近與0。整個迭代過程在第35步終止,因為此時已經滿足了上面提到的迭代終止的第2個標準,所以可以認為各類別中心已經收斂了。
|
最終聚類中心 |
|||||
|
聚類 |
|||||
|
1 |
2 |
3 |
4 |
5 |
|
|
Zscore: 工作日上班時期電話時長 |
1.60559 |
-.78990 |
.61342 |
-.33584 |
.37303 |
|
Zscore: 工作日下班時期電話時長 |
.46081 |
-.58917 |
-.49365 |
1.18873 |
-.29014 |
|
Zscore: 周末電話時長 |
-.14005 |
-.15010 |
.35845 |
-.02375 |
-.40407 |
|
Zscore: 國際電話時長 |
1.68250 |
-.64550 |
.04673 |
.02351 |
-.04415 |
|
Zscore: 總通話時長 |
1.62690 |
-.94040 |
.41420 |
.10398 |
.21627 |
|
Zscore: 平均每次通話時長 |
-.06590 |
-.14835 |
-.05337 |
-.14059 |
4.87718 |
Means生成的另一個比較重要的結果是最終的類別中心點,也就是各個類別在各個變量上的平均值。
|
ANOVA |
||||||
|
聚類 |
誤差 |
F |
顯著性 |
|||
|
均方 |
自由度 |
均方 |
自由度 |
|||
|
Zscore: 工作日上班時期電話時長 |
582.315 |
4 |
.314 |
3390 |
1854.022 |
.000 |
|
Zscore: 工作日下班時期電話時長 |
468.001 |
4 |
.449 |
3390 |
1042.395 |
.000 |
|
Zscore: 周末電話時長 |
39.060 |
4 |
.955 |
3390 |
40.896 |
.000 |
|
Zscore: 國際電話時長 |
443.179 |
4 |
.478 |
3390 |
926.658 |
.000 |
|
Zscore: 總通話時長 |
605.770 |
4 |
.286 |
3390 |
2115.071 |
.000 |
|
Zscore: 平均每次通話時長 |
463.823 |
4 |
.454 |
3390 |
1021.872 |
.000 |
|
由于已選擇聚類以使不同聚類中個案之間的差異最大化,因此 F 檢驗只應該用于描述目的。實測顯著性水平并未因此進行修正,所以無法解釋為針對“聚類平均值相等”這一假設的檢驗。 |
||||||
得出結論,各個變量對聚類結果的重要程度排序為:總通話時長>工作日上班電話時長>工作日下班時期電話時長>平均每次通話時長>國際電話時長>周末電話時長。
|
每個聚類中的個案數目 |
||
|
聚類 |
1 |
443.000 |
|
2 |
1239.000 |
|
|
3 |
831.000 |
|
|
4 |
806.000 |
|
|
5 |
76.000 |
|
|
有效 |
3395.000 |
|
|
缺失 |
.000 |
|
可見人數最多的是第2類,而最少的是第5類,第1類人群也較少,各類人數的高低有時可以為最終類別特性的確定起都輔助作用。
最終類別特征描述:
第1類:高端商用客戶,總通話時間長,工作日上班通話比例高用戶,443人。
第2類:少使用低端客戶,總通話時間短,各個時段通話時間都短,1239人。
第3類:中端商用客戶,總通話時間居中,工作日上班通話比例高用戶,831人。
第4類:中端日常用客戶,總通話時間居中,工作日下班通話比例高用戶,806人。
第5類:長聊客戶,每次通話時間長客戶,76人。
1 QUICK CLUSTER ZPeak_mins ZOffPeak_mins ZWeekend_mins ZInternational_mins ZTotal_mins Zaverage_mins 2 /MISSING=LISTWISE 3 /CRITERIA=CLUSTER(5) MXITER(100) CONVERGE(0) 4 /METHOD=KMEANS(NOUPDATE) 5 /SAVE CLUSTER 6 /PRINT ID(Customer_ID) INITIAL ANOVA.
07
兩步聚類法實例分析——例子是患有某種疾病的患者的病例數據,詳細見drug.sav數據文件。SPSS操作,【分析】→【分類】→【二階聚類】,把Sex,BP,Cholesterol選入【分類變量】中,把Age,Na,K選入【連續變量】中。點擊【輸出】,勾選【透視表】和【創建聚類成員變量】→【繼續】。單擊【確定】。
運行示例,
|
自動聚類 |
||||
|
聚類數目 |
施瓦茲貝葉斯準則 (BIC) |
BIC 變化量a |
BIC 變化比率b |
距離測量比率c |
|
1 |
3579.426 |
|||
|
2 |
2941.099 |
-638.327 |
1.000 |
1.835 |
|
3 |
2621.569 |
-319.530 |
.501 |
1.202 |
|
4 |
2366.305 |
-255.264 |
.400 |
1.715 |
|
5 |
2243.387 |
-122.918 |
.193 |
1.016 |
|
6 |
2123.381 |
-120.006 |
.188 |
1.046 |
|
7 |
2011.454 |
-111.926 |
.175 |
1.265 |
|
8 |
1935.996 |
-75.458 |
.118 |
1.139 |
|
9 |
1877.369 |
-58.627 |
.092 |
1.062 |
|
10 |
1825.830 |
-51.539 |
.081 |
1.100 |
|
11 |
1784.648 |
-41.181 |
.065 |
1.293 |
|
12 |
1766.882 |
-17.767 |
.028 |
2.591 |
|
13 |
1798.181 |
31.299 |
-.049 |
1.099 |
|
14 |
1832.250 |
34.070 |
-.053 |
1.037 |
|
15 |
1867.309 |
35.059 |
-.055 |
1.035 |
|
a. 變化量基于表中的先前聚類數目。 |
||||
|
b. 變化比率相對于雙聚類解的變化。 |
||||
|
c. 距離測量比率基于當前聚類數目而不是先前聚類數目。 |
||||
?。?)確認最佳聚類類別數時最重要的指標是BIC值,即Bayes信息準則,其數值越小代表效果越好,而其右側的BIC Change列則反映相鄰兩種結果的BIC之差,可見BIC值以12類時最小,但在8類后,BIC下降不太明顯。綜合觀察,可以認為4~8類都是可供考慮的選擇范圍。
?。?)除BIC值外,兩步聚類法還會利用相鄰的兩步的最小間距離比來進一步確認最佳的類別數。最小間距離比共有3個高峰,分別對應了2類、4類和12類的情形。以12類時為例,其數值為2.655,意思是和聚為13類時的最小類間距相比,12類時的最小間距離是它的2.655倍。由于第2步是采用的是層次聚類法,這些結果是嵌套的關系,因此,這就意味著在原來12類的基礎上再拆分出的兩個新類相比之下其實差別很小,空拍意義不大。顯然,該指標越大,表示當前結果越好。結合前面的BIC大小,可以認定對于本利而言,4類或者12類時統計上認為最佳的類別數。
|
聚類分布 |
||||
|
個案數 |
占組合的百分比 |
占總計的百分比 |
||
|
聚類 |
1 |
134 |
26.8% |
26.8% |
|
2 |
136 |
27.2% |
27.2% |
|
|
3 |
98 |
19.6% |
19.6% |
|
|
4 |
132 |
26.4% |
26.4% |
|
|
組合 |
500 |
100.0% |
100.0% |
|
|
總計 |
500 |
100.0% |
||
確定聚為4類后,可以看出每個類別包含記錄數目大體相差不大。
|
質心 |
|||||||
|
年齡 |
鈉含量 |
鉀含量 |
|||||
|
平均值 |
標準 偏差 |
平均值 |
標準 偏差 |
平均值 |
標準 偏差 |
||
|
聚類 |
1 |
42.72 |
17.102 |
.7319 |
.11601 |
.0483 |
.01801 |
|
2 |
45.57 |
17.505 |
.6919 |
.11797 |
.0507 |
.01639 |
|
|
3 |
44.54 |
18.345 |
.7244 |
.11215 |
.0500 |
.01756 |
|
|
4 |
44.08 |
16.186 |
.6872 |
.11396 |
.0501 |
.01740 |
|
|
組合 |
44.21 |
17.210 |
.7078 |
.11661 |
.0498 |
.01730 |
|
可見對于鈉含量而言,第3類的均數最高,而第4類中鈉含量的均數最低。
代碼
1 TWOSTEP CLUSTER 2 /CATEGORICAL VARIABLES=血壓 膽固醇 性別 3 /CONTINUOUS VARIABLES=年齡 鈉含量 鉀含量 4 /DISTANCE LIKELIHOOD 5 /NUMCLUSTERS AUTO 15 BIC 6 /HANDLENOISE 0 7 /MEMALLOCATE 64 8 /CRITERIA INITHRESHOLD(0) MXBRANCH(8) MXLEVEL(3) 9 /VIEWMODEL DISPLAY=YES 10 /PRINT IC COUNT SUMMARY 11 /SAVE VARIABLE=TSC_5167.
08
數據作圖,【圖性】→【舊對話框】→【誤差條形圖】→【簡單】→【個案組摘要】,在打開的對話框中,把“鈉含量”選入【變量】,把“二階聚類編號”選入【類別軸】→【確定】。
1 GRAPH 2 /ERRORBAR(CI 95)=鈉含量 BY TSC_5167
09
做圖分析,SPSS操作,【圖形】→【舊對話框】→【直方圖】,把“二階聚類編號”選入【變量】,把“性別”選入【列】→【確定】。
1 GRAPH 2 /HISTOGRAM=TSC_5167 3 /PANEL COLVAR=性別 COLOP=CROSS.
10
由上所畫的統計圖可見鈉含量的變化情況和表格基本一致,而離散變量性別而言,第3類和第4類男性和女性基本是等比例的,而第1類中只有男性,第2類中只有女性。
最終類別描述:
第1類:女性、膽固醇濃度高。134人,占比26.8%,血液鈉含量高于平均水平。
第2類:男性、膽固醇濃度高。136人,占比27.2%,血液鈉含量低于平均水平。
第3類:高血壓、膽固醇濃度正常。此類病人數量為98人,占病人總數19.6%,全部為高血壓、膽固醇濃度正常,血壓無明顯特征,血液鈉含量高于平均水平。
第4類:非高血壓、膽固醇濃度正常。132人,占比26.4%,血液鈉含量低于平均水平。
(3)Fisher判別分析示例——鳶尾花資料,數據詳見iris.sav文件。SPSS操作,【分析】
→【分類】→【判別式】,在打開的對話框中,把spno選入【分組變量】,并【定義范圍】→【最大值】3→【最小值】1。把除編號外剩下的變量選入【自變量】中→【確定】。
運行示例,
|
特征值 |
||||
|
函數 |
特征值 |
方差百分比 |
累積百分比 |
典型相關性 |
|
1 |
30.419a |
99.0 |
99.0 |
.984 |
|
2 |
.293a |
1.0 |
100.0 |
.476 |
|
a. 在分析中使用了前 2 個典則判別函數。 |
||||
提取了兩個判別函數且絕大部分信息在第1個判別函數上。
|
威爾克 Lambda |
||||
|
函數檢驗 |
威爾克 Lambda |
卡方 |
自由度 |
顯著性 |
|
1 直至 2 |
.025 |
538.950 |
8 |
.000 |
|
2 |
.774 |
37.351 |
3 |
.000 |
兩個判別函數各個變量的標準化系數,可用來判斷兩個函數分別主要受哪些變量的影響較大。
|
標準化典則判別函數系數 |
||
|
函數 |
||
|
1 |
2 |
|
|
花萼長 |
-.346 |
.039 |
|
花萼寬 |
-.525 |
.742 |
|
花瓣長 |
.846 |
-.386 |
|
花瓣寬 |
.613 |
.555 |
|
標準化典則判別函數系數 |
||
|
函數 |
||
|
1 |
2 |
|
|
花萼長 |
-.346 |
.039 |
|
花萼寬 |
-.525 |
.742 |
|
花瓣長 |
.846 |
-.386 |
|
花瓣寬 |
.613 |
.555 |
變量名前加z表明是標準化后的數值。
|
結構矩陣 |
||
|
函數 |
||
|
1 |
2 |
|
|
花瓣長 |
.726* |
.165 |
|
花萼寬 |
-.121 |
.879* |
|
花瓣寬 |
.651 |
.718* |
|
花萼長 |
.221 |
.340* |
|
判別變量與標準化典則判別函數之間的匯聚組內相關性 變量按函數內相關性的絕對大小排序。 |
||
|
*. 每個變量與任何判別函數之間的最大絕對相關性 |
||
給出各組的判別函數的重心。在得知各類的重心后,只需要為每個待判個案求出判別得分,然后計算出該個案的散點離哪一個中心最近,就可以得到該個案的判別結果了。
|
組質心處的函數 |
||
|
分類 |
函數 |
|
|
1 |
2 |
|
|
剛毛鳶尾花 |
-7.392 |
.219 |
|
變色鳶尾花 |
1.763 |
-.737 |
|
佛吉尼亞鳶尾花 |
5.629 |
.518 |
|
按組平均值進行求值的未標準化典則判別函數 |
||
代碼:
1 DATASET ACTIVATE 數據集39. 2 DATASET CLOSE 數據集38. 3 DISCRIMINANT 4 /GROUPS=spno(1 3) 5 /VARIABLES=slen swid plen pwid 6 /ANALYSIS ALL 7 /PRIORS EQUAL 8 /CLASSIFY=NONMISSING POOLED.
11
如果希望得到直接使用原始變量的判別函數,則可以在【判別分析】的對話框中,點擊【統計】,勾選【未標準化】,點擊【繼續】,【確定】。
運行示例,
|
典則判別函數系數 |
||
|
函數 |
||
|
1 |
2 |
|
|
花萼長 |
-.063 |
.007 |
|
花萼寬 |
-.155 |
.218 |
|
花瓣長 |
.196 |
-.089 |
|
花瓣寬 |
.299 |
.271 |
|
(常量) |
-2.526 |
-6.987 |
|
未標準化系數 |
||
1 DISCRIMINANT 2 /GROUPS=spno(1 3) 3 /VARIABLES=slen swid plen pwid 4 /ANALYSIS ALL 5 /PRIORS EQUAL 6 /STATISTICS=RAW 7 /CLASSIFY=NONMISSING POOLED.
12
判別結果圖形化展示,在【判別分析】的對話框中,點擊【分類】,勾選【合并圖】和【鄰域圖】,點擊【繼續】,【確定】。
運行示例,
領域圖
典則判別
函數 2
-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0
+---------+---------+---------+---------+---------+---------+---------+---------+
16.0 + 13 +
I 13 I
I 13 I
I 123 I
I 123 I
I 12 23 I
12.0 + + + + 12 23 + + + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
8.0 + + + + 12 + 23 + + + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
4.0 + + + + 12 + 23 + + + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 * I
.0 + + + * + 12 + 23 + + +
I 12 * 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
-4.0 + + + + 12 + + 23 + + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
-8.0 + + + +12 + + 23 + + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
-12.0 + + + 12 + + 23 + +
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
I 12 23 I
-16.0 + 12 23 +
+---------+---------+---------+---------+---------+---------+---------+---------+
-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0
典則判別函數 1
領域圖中使用的符號
符號 分組 標簽
------ ------ ----------------------
1 1 剛毛鳶尾花
2 2 變色鳶尾花
3 3 佛吉尼亞鳶尾
* 指示組質心
當新案例被計算出來散點坐標后,即可被繪制在該圖形中,該坐標點落在那個范圍,就應當屬于哪個類別。演示領域圖的用法,
從上圖可見,該案例顯然應當判為第1類,即毛鳶尾花,與實際相一致。如果需同時對一批未知樣本給出類別判斷,則可以使用save子對話框中的存儲功能。
從這幅圖同樣可以看到第1判別軸上3中不同類型的植物區分得很清楚,而在第2判別軸上重合地非常厲害。
1 DISCRIMINANT 2 /GROUPS=spno(1 3) 3 /VARIABLES=slen swid plen pwid 4 /ANALYSIS ALL 5 /PRIORS EQUAL 6 /STATISTICS=RAW 7 /PLOT=COMBINED MAP 8 /CLASSIFY=NONMISSING POOLED.
13
判別效果檢驗,在【判別分析】的對話框中,點擊【分類】,勾選【摘要表】,【繼續】,【確定】。
運行示例,
|
分類結果a |
||||||||||||||
|
分類 |
預測組成員信息 |
總計 |
||||||||||||
|
剛毛鳶尾花 |
變色鳶尾花 |
佛吉尼亞鳶尾花 |
||||||||||||
|
原始 |
計數 |
剛毛鳶尾花 |
50 |
0 |
0 |
50 |
||||||||
|
變色鳶尾花 |
0 |
48 |
2 |
50 |
||||||||||
|
佛吉尼亞鳶尾花 |
0 |
1 |
49 |
50 |
||||||||||
|
% |
剛毛鳶尾花 |
100.0 |
.0 |
.0 |
100.0 |
|||||||||
|
變色鳶尾花 |
.0 |
96.0 |
4.0 |
100.0 |
||||||||||
|
佛吉尼亞鳶尾花 |
.0 |
2.0 |
98.0 |
100.0 |
||||||||||
|
a. 正確地對 98.0% 個原始已分組個案進行了分類。 |
||||||||||||||
上表可見,剛毛花全部正確預測,而另兩種花則存在錯判。(判斷率超過41.67%就可)。顯然,用本例建立的判別函數進行新樣品判別,效果將是令人非常滿意。
1 DISCRIMINANT 2 /GROUPS=spno(1 3) 3 /VARIABLES=slen swid plen pwid 4 /ANALYSIS ALL 5 /PRIORS EQUAL 6 /STATISTICS=RAW TABLE 7 /PLOT=COMBINED MAP 8 /CLASSIFY=NONMISSING POOLED.
14
適用條件的判斷方法,在【判別分析】的對話框中,點擊【統計】,勾選【平均值】、【單變量ANOVA】、【博克斯】,【繼續】,【確定】。
運行示例
|
組平均值的同等檢驗 |
|||||
|
威爾克 Lambda |
F |
自由度 1 |
自由度 2 |
顯著性 |
|
|
花萼長 |
.397 |
111.847 |
2 |
147 |
.000 |
|
花萼寬 |
.598 |
49.371 |
2 |
147 |
.000 |
|
花瓣長 |
.059 |
1179.052 |
2 |
147 |
.000 |
|
花瓣寬 |
.071 |
960.007 |
2 |
147 |
.000 |
由表中的最后的Sig值可見,很明顯各組間存在差異,因此這些變量的判別可能是有作用的。
|
對數決定因子 |
||
|
分類 |
秩 |
對數決定因子 |
|
剛毛鳶尾花 |
4 |
5.353 |
|
變色鳶尾花 |
4 |
7.594 |
|
佛吉尼亞鳶尾花 |
4 |
10.495 |
|
匯聚組內 |
4 |
8.920 |
|
打印的決定因子的秩和自然對數是組協方差矩陣的相應信息。 |
||
協方差齊性的博克斯檢驗,從右側的輸出可見組間協方差這一原假設被拒絕,竟然連Fisher給出的判別分析實例都違反這一適用條件,從這一點看出協方差齊性等要求往往是被忽視的。
1 DISCRIMINANT 2 /GROUPS=spno(1 3) 3 /VARIABLES=slen swid plen pwid 4 /ANALYSIS ALL 5 /PRIORS EQUAL 6 /STATISTICS=MEAN STDDEV UNIVF BOXM RAW TABLE 7 /PLOT=COMBINED MAP 8 /CLASSIFY=NONMISSING POOLED.
15
貝葉斯判別分析,同樣的實例。SPSS操作,在【判別分析】的對話框中,點擊【統計】勾選【費希爾】,【繼續】;點擊【分類】,勾選【根據組大小計算】,【繼續】,【確定】。
運行示例,
|
分類函數系數 |
|||
|
分類 |
|||
|
剛毛鳶尾花 |
變色鳶尾花 |
佛吉尼亞鳶尾花 |
|
|
花萼長 |
1.687 |
1.101 |
.865 |
|
花萼寬 |
2.695 |
1.070 |
.747 |
|
花瓣長 |
-.880 |
1.001 |
1.647 |
|
花瓣寬 |
-2.284 |
.197 |
1.695 |
|
(常量) |
-80.268 |
-71.196 |
-103.890 |
|
費希爾線性判別函數 |
|||
SPSS認為貝葉斯判別的基本思想,即按判別函數值最大的一組進行歸類的思想是Fisher提出來的,因此稱該方法為Fisher線性判別函數。
剛毛鳶尾花:
變色鳶尾花:
弗吉尼亞鳶尾花:
下面利用判別式直接計算新觀測屬于各類的評分,得分最高的一類就是該觀測相應的類別。如由于剛毛花判別函數的得分最高,因此和前面一樣,判別結果將其歸為剛毛花一類,代碼:
1 DISCRIMINANT 2 /GROUPS=spno(1 3) 3 /VARIABLES=slen swid plen pwid 4 /ANALYSIS ALL 5 /PRIORS SIZE 6 /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF TABLE 7 /PLOT=COMBINED MAP 8 /CLASSIFY=NONMISSING POOLED.
16
小結
聚類方法的選擇:
|
聚類方法 |
對記錄聚類 |
對變量聚類 |
數據量<100 |
100-1000 |
>1000 |
連續變量 |
指定類別數量 |
|
層次聚類 |
√ |
√ |
√√ |
√樹狀圖× |
√ |
√ |
|
|
非層次聚類 |
√ |
√ |
√樹狀圖× |
√ |
|||
|
K-均值聚類法 |
√ |
√ |
√樹狀圖× |
√ |
√(可包含離散變量) |
√ |
判別分析的使用條件,
(1)自變量和因變量的關系符合線性假定。
?。?)因變量的取值是獨立的,且必須是事先就已經確定的。
?。?)自變量服從多元正態分布。
?。?)所有自變量在各組件方差齊性,協方差矩陣也相等。
?。?)所有自變量不存在多重共線性。
違背條件的處理方法,
?。?)當樣本的多元正態分布假設不能滿足的時候采取的措施和方法:
如果數據的超平面是若干分段結構的時候,采用分段判別分析。
如果數據滿足方差齊性和協方差齊性可以采用距離判別分析、經典判別分析、貝葉斯判別分析。(建議使用經典判別分析)
如果數據不滿足方差齊性和協方差齊性,則采用經典判別分析、非參數判別分析、距離判別分析。
進行變量變換。
(2)方差齊性和協方差齊性不滿足,
增加樣本。
采用經典判別分析、非參數判別分析、距離判別分析。
(3)存在多重共線,
增加樣本。
采用逐步判別分析。
采用嶺判別分析。
對成分進行主成分分析,用因子代替變量進行判別。
通過相關矩陣知識刪去共線性的自變量。
(4)當線性假設被違反,
離散型判別分析或混合型判別分析。
K最近鄰判別分析或核密度判別分析。
采用二次判別分析。
總結
- 上一篇: 热血传奇里的战士pk技巧是什么(《热血传
- 下一篇: 硬盘存储结构及分区简介