SPSS教程:手把手教你设置哑变量以及解读结果
今天我們將結合SPSS軟件,向大家介紹在回歸模型中何如實現啞變量的設置,并對引入啞變量后的模型結果進行解讀。
Logistic /Cox回歸
在SPSS中,Logistic回歸和Cox回歸設置啞變量的方式是一致的,因此本文以Logistic回歸為例進行說明。
一、研究實例
某研究人員擬探討不同種族人群中某疾病發病風險有無差異,收集了4種不同種族人群的相關數據資料(1=Black美國黑人,2=White美國白人,3=Indian美國印第安人,4=Asian亞裔美國人)。
根據數據類型判斷,種族為無序多分類資料,需要將種族轉化為啞變量后,進行Logistic回歸。
二、SPSS操作
1. Analyze → Regression → Binary Logistic,進入到Logistic回歸模塊
?
?
2. 將Event選入Dependent框中,將Gender、Age、Race選入Covariates框中
?
?
3. 點擊Categorical進入定義分類變量的對話框,將需要轉化的變量Race選入Categorical Covariates框中,點擊Contrast旁的下拉框選擇Indicator,Reference Category設置為First,即設定第一個分類為參照。
在本次研究中,Race=1為黑人,即我們選擇黑人作為參照。最后再點擊Change確認更改為Race(Indicator(first))。
?
?
?
在選擇啞變量編碼方式時,Contrast下拉選項一共提供了7種編碼方式:
(1)?Indicator(指示對比):用于指定某一分類為參照,指定的參照取決于Reference Category中選擇Last還是First,即只能以該變量的第一類或者最后一類作為參照。Indicator為默認方法,也是我們最常用的設置參照類的方法。
(2)?Simple(簡單對比): Simple和Indicator兩個方法雖然參數編碼不同,但其實質是一樣的,均為各分類分別與參照進行相比。
(3)?Difference(差異對比):即該分類變量的某個分類,與前面所有分類的平均值進行比較,此法與Helmert法相反,因此也叫做反Helmert法。此選項常用于有序分類變量。
(4)?Helmert(赫爾默特對比):即該分類變量的某個分類,與其后面所有分類的平均值進行比較,同樣也適用于有序分類變量。
(5)?Repeated(重復對比):即該分類變量的各個分類,均與前面相鄰的一個分類進行比較,此時前一分類為參照。
(6)?Polynomial(多項式對比):它假設各個分類間隔是等距的,只能用于數值型的變量。(注意:如果此時原始變量為字符型,例如A、B、C、D,在SPSS中使用該方法時它會提示Polynomial contrasts may not be specified for string variables。而對于其他6種方法是允許原始變量是字符型,SPSS可以將其自動轉化為0或1形式的啞變量。)
(7)?Deviation(偏差對比):即除參照外,其余每一個分類都與總體水平相比,此時每個分類的回歸系數都是相對于總體水平而言的改變量。
4. 點擊Continue回到主對話框,再點擊OK完成操作。
?
三、結果解讀
?
?
1. 結果顯示, SPSS將 Race自動轉化為3個啞變量,分別為Race(1) (2) (3),代表白人、印第安人和亞裔人,參照為黑人。在α=0.05的檢驗水準下,Race(1) (2) (3) 回歸系數檢驗P值均<0.05,提示白人、印第安人和亞裔種族某疾病的發生風險均與黑人種族之間存在統計學差異。
2. 白人、印第安人和亞裔相對于黑人種族,其OR值和95% CI分別為0.247(0.102, 0.598)、0.181(0.070, 0.466)、0.132(0.049, 0.357),提示白人、印第安人和亞裔人中該疾病的發生風險均顯著低于黑人種族。
多重線性回歸
針對多重線性回歸,我們需要通過重新編碼的方式,先將其轉換為啞變量,然后再帶入到回歸模型中。
?
一、研究實例
?
仍然以上面的研究實例進行介紹,某研究人員擬探討不同種族人群中BMI有無差異,收集了4種不同種族人群的相關數據資料(1=Black美國黑人,2=White美國白人,3=Indian美國印第安人,4=Asian亞裔美國人)。
根據數據類型判斷,種族為無序多分類資料,需要將種族轉化為啞變量后,進行多重線性回歸。
二、SPSS操作
方法一
1. Transform → CreateDummy Variables
將需要轉換為啞變量的Race因素選入CreateDummy Variables for中,在Root Names(One Per SelectedVariable)框中輸入轉換后的啞變量名Race_,并點擊OK完成操作
注意:使用SPSS軟件自帶的創建啞變量的功能,原始變量有n個分類,就會產生n個啞變量,例如Race為4分類,系統自動生成4個啞變量。在構建多重線性回歸模型時,需要確定其中一個啞變量作為參照,然后把剩余n-1個啞變量帶入到模型中。
方法二
1. Transform → Recode into Different Variables
?
將需要轉換為啞變量的Race因素選入Numeric Variable->Output Variable框中,在Name框中輸入轉變的第一個啞變量名字Race1,并點擊Change進行命名
?
2. 點擊Old and New Values進入重新編碼的對話框
在Old Value中的Value框中填寫1,在New Value中的Value框中填寫1,并點擊Add添加,得到1->1。
?
?
然后選擇Old Value中的All other values,在New Value中的Value框中填寫0,并點擊Add添加,得到ELSE->0
?
?
上述步驟表示將原有變量Race中第1分類,在啞變量Race1中賦值為1,將其他所有分類在啞變量Race1中賦值為0。
按照同樣的方法,我們可以生成Race2和Race3,共3個啞變量。如果覺得生成3個啞變量很麻煩,我們可以進入程序編輯頁面,編寫一條簡單的程序進行重新編碼賦值,如下圖所示。
?
?
賦值完成后,我們就可以在數據視圖界面看到新生成的3個啞變量。啞變量生成好后,我們就可以開始進行多重線性回歸了。
?
?
3. Analyze → Regression → Linear
?
?
將BMI選入Dependent框中,將Race1、Race2、Race3、Gender和Age一同選入Independent(s)框中,Method選擇Enter法,點擊OK完成操作。
?
?
三、結果解讀
?
?
1. 我們通過重新編碼將Race轉化為3個啞變量,分別為Race1、2、3,代表黑人、白人和印第安人,此時參照為亞裔人。在α=0.05的檢驗水準下,Race1、2、3回歸系數檢驗P值均<0.05,提示黑人、白人和印第安人的BMI均與亞裔人之間存在統計學差異。
2. 黑人、白人和印第安人與亞裔人相比,其β值和95% CI分別為1.543(0.163, 2.923)、2.331(0.996, 3.665)、1.585(0.208, 2.963),提示黑人、白人和印第安人的BMI要顯著高于亞裔人。
設置啞變量時的注意事項
1.?原則上啞變量在模型中應同進同出,也就是說在一個模型中,如果同一個分類變量的不同啞變量,出現了有些啞變量有統計學顯著性,有些無統計學顯著性的情況下,為了保證所有啞變量代表含義的正確性,應當在模型中納入所有的啞變量。
因此,我們在引入啞變量進入模型時,需選擇Enter強制進入法,以保證所有啞變量都能保留在最后的模型中。
2.?被選為參照的那一類分組,應該保證有一定的樣本量。如果參照組樣本量太少,則將會導致其他分類與參照相比時,參數估計的標準誤較大,可信區間較大,精度降低,會出現估計參數極大或極小的現象。
?
END
?
總結
以上是生活随笔為你收集整理的SPSS教程:手把手教你设置哑变量以及解读结果的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java查询mongodb数据_从mon
- 下一篇: UNIX网络编程第三版