UA MATH571A ANCOVA简介
UA MATH571A ANCOVA簡介
- 回歸
- ANCOVA
- ANCOVA的統(tǒng)計模型
- ANCOVA的結果
- Influential Analysis
- 線性回歸的Influential Analysis
- ANCOVA的Influential Analysis
用一個例子引入我們要討論的話題:一項Health Science的研究試圖比較美國中西部地區(qū)女性的血清膽固醇(serum cholesterol)是否存在地區(qū)差異,為此研究人員收集到下列meta data
基于這兩組數(shù)據(jù),為了驗證愛荷華與內(nèi)布拉斯加女性的血清膽固醇是否存在顯著差異,研究人員構建了下列回歸方程:
log?(cholesti)=β0+β1agei+β2State+β12agei×Statei+?i\log (cholest_i) = \beta_0 + \beta_1 age_i + \beta_2 State + \beta_{12}age_i \times State_i + \epsilon_ilog(cholesti?)=β0?+β1?agei?+β2?State+β12?agei?×Statei?+?i?
在估計這個模型之前,我們先看看數(shù)據(jù)的散點圖:
cholesterol.df = read.csv( file.choose() ) attach( cholesterol.df ) X = age; Y = log(cholesterol); State = StateNumstate = rep(0,length(State)) for (i in 1:length(State)) {if(State[i]=="Iowa"){Numstate[i]=1} }plot( Y ~ X, pch=(Numstate) , xlab = "Age", ylab = "log Cholest") legend(60,5,legend=c('Iowa','Nebraska'),pch=c(unique(Numstate)))從這個散點圖沒法很直觀看出兩個州女性血清膽固醇的差異,下面就用統(tǒng)計模型來判斷吧。
回歸
如果把State用Dummy來表示,然后根據(jù)上述模型做回歸,那么State以及交互項的系數(shù)都是不顯著的,說明不存在顯著的地區(qū)差異。
> reg.lm <- lm( Y ~ X*Numstate) > summary(reg.lm)Call: lm(formula = Y ~ X * Numstate)Residuals:Min 1Q Median 3Q Max -0.4338 -0.1174 0.0141 0.1546 0.3147 Coefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) 4.757e+00 1.410e-01 33.726 < 2e-16 *** X 1.322e-02 3.007e-03 4.396 0.000178 *** Numstate -2.650e-03 2.933e-03 -0.904 0.374810 X:Numstate 1.842e-05 5.585e-05 0.330 0.744356 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.2013 on 25 degrees of freedom Multiple R-squared: 0.5452, Adjusted R-squared: 0.4907 F-statistic: 9.991 on 3 and 25 DF, p-value: 0.0001649ANCOVA
線性模型有一個致命弱點,參數(shù)估計受變量取值的影響很大,所以把State用Dummy表示只能保證能夠做回歸,不能保證結果的準確性。
試驗設計中我們介紹過nuisance factor,它會影響試驗結果但不是我們研究興趣所在。如果我們只是知道存在nuisance factor,但不知道具體是什么,就只能通過randomization來降低它的影響;如果我們知道nuisance factor是什么,可以測量它的值,但不能人為控制,可以用ANCOVA檢驗treatment factor效應是否顯著;如果我們知道nuisance factor是什么并且可以人為控制,就可以用Blocking design。在上面的例子中,State是treatment factor,age是nuisance factor,可以測量但不能控制,所以上面的數(shù)據(jù)應該用ANCOVA來分析。
ANCOVA的統(tǒng)計模型
yij=μ′+τi+βxij+?ijy_{ij} = \mu'+\tau_i + \beta x_{ij} + \epsilon_{ij}yij?=μ′+τi?+βxij?+?ij?
其中xijx_{ij}xij?表示nuisance factor,對應上面例子中的age;yijy_{ij}yij?表示response,對應上面例子中的血清膽固醇的對數(shù);μ′\mu'μ′不再是grand mean了,它是grand mean加上βxˉ..\beta \bar{x}_{..}βxˉ..?;τi\tau_iτi?是treatment effect,在上面的例子中就是State的effect,i=1,2i=1,2i=1,2。ANCOVA的假設檢驗是
H0:τi=0Ha:τi≠0H_0:\tau_i = 0 \\ H_a:\tau_i \ne 0H0?:τi?=0Ha?:τi??=0
ANCOVA的結果
> cholestFM.lm = lm( Y ~ X*factor(State) ) > anova( cholestFM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 25.2733 3.473e-05 *** factor(State) 1 0.1860 0.18600 4.5906 0.04207 * X:factor(State) 1 0.0044 0.00440 0.1087 0.74436 Residuals 25 1.0129 0.04052 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1ANCOVA結果顯示,在0.05的顯著性水平下,State是顯著的,但交互項不顯著,這說明愛荷華和內(nèi)布拉斯加女性血清膽固醇存在顯著差異,但這種差異并非是由兩個州女性的年齡結構所造成的。
> cholestRM.lm = lm( Y ~ X + factor(State) ) > anova( cholestRM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 26.1704 2.477e-05 *** factor(State) 1 0.1860 0.18600 4.7536 0.03848 * Residuals 26 1.0173 0.03913 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > anova( cholestRM.lm,cholestFM.lm ) Analysis of Variance TableModel 1: Y ~ X + factor(State) Model 2: Y ~ X * factor(State)Res.Df RSS Df Sum of Sq F Pr(>F) 1 26 1.0173 2 25 1.0129 1 0.004405 0.1087 0.7444如果我們剔除掉交互項,只保留一次項,第二個ANOVA的結果說明這樣做與保留交互項的模型沒有顯著差異,而第一個ANOVA的結果則說明去掉交互項,State的顯著性會有一點點提升。
Influential Analysis
線性回歸的Influential Analysis
> influence.measures(reg.lm) Influence measures oflm(formula = Y ~ X * Numstate) :dfb.1_ dfb.X dfb.Nmst dfb.X.Nm dffit cov.r cook.d hat inf 1 -8.11e-16 1.08e-15 1.111496 -0.951079 1.3411 0.927 0.401830 0.3116 * 2 -1.15e-16 6.89e-17 0.263426 -0.213166 0.3429 1.361 0.030027 0.1995 3 6.58e-16 -7.96e-16 -0.768725 0.603894 -1.0477 0.637 0.233917 0.1708 4 5.32e-18 -5.24e-18 0.015858 -0.010880 0.0268 1.334 0.000187 0.1184 5 -2.36e-16 1.18e-16 -0.378992 0.212313 -0.8331 0.519 0.143444 0.1001 * 6 2.19e-17 -9.42e-18 0.070604 -0.018041 0.2539 1.167 0.016358 0.0916 7 1.50e-17 1.57e-17 0.061938 0.025057 0.4228 0.974 0.043339 0.0914 8 -2.40e-17 1.14e-17 0.023939 -0.065395 -0.2181 1.228 0.012180 0.1041 9 8.09e-18 0.00e+00 -0.048069 0.064505 0.1128 1.401 0.003306 0.1685 10 -1.62e-17 4.51e-17 0.296029 -0.354837 -0.5189 1.421 0.068007 0.2663 11 4.92e-17 -1.37e-16 -0.602514 0.690281 0.9400 1.496 0.216943 0.3779 * 12 -2.06e-01 1.80e-01 0.099018 -0.096861 -0.2101 1.446 0.011413 0.2084 13 6.36e-01 -5.52e-01 -0.305986 0.297225 0.6516 1.110 0.103119 0.1969 14 5.37e-01 -4.59e-01 -0.258250 0.246956 0.5550 1.129 0.075637 0.1753 15 -3.27e-01 2.48e-01 0.157259 -0.133754 -0.3718 1.070 0.034238 0.1003 16 -1.39e-01 1.04e-01 0.067011 -0.055789 -0.1617 1.247 0.006740 0.0942 17 -2.10e-02 1.48e-02 0.010087 -0.007970 -0.0256 1.283 0.000171 0.0834 18 3.07e-02 -9.06e-03 -0.014769 0.004876 0.0666 1.233 0.001150 0.0566 19 4.07e-02 -7.41e-03 -0.019554 0.003987 0.1004 1.212 0.002607 0.0559 20 -3.86e-02 1.18e-03 0.018542 -0.000633 -0.1113 1.204 0.003200 0.0556 21 -7.93e-02 2.42e-03 0.038114 -0.001302 -0.2289 1.078 0.013151 0.0556 22 -2.04e-02 -2.19e-02 0.009824 0.011808 -0.1241 1.198 0.003967 0.0573 23 1.29e-03 -7.82e-03 -0.000621 0.004213 -0.0197 1.259 0.000101 0.0660 24 1.02e-01 -2.07e-01 -0.048984 0.111198 -0.3442 1.053 0.029332 0.0868 25 -2.80e-02 5.03e-02 0.013487 -0.027059 0.0762 1.294 0.001510 0.0983 26 -1.60e-02 2.87e-02 0.007707 -0.015462 0.0436 1.302 0.000494 0.0983 27 -2.49e-01 3.77e-01 0.119530 -0.202796 0.4914 1.059 0.059060 0.1347 28 -3.42e-01 4.82e-01 0.164480 -0.259635 0.5862 1.089 0.083703 0.1719 29 2.06e-01 -2.80e-01 -0.099057 0.150631 -0.3278 1.381 0.027508 0.2045上面的結果說明第一個樣本對State的系數(shù)、第一個樣本和第三個樣本對擬合值的影響都比較大,第1、10、11、12、29個樣本的hat value超過或者十分接近臨界值,他們對參數(shù)估計有較大影響,可能是outlier。
ANCOVA的Influential Analysis
> influence.measures(cholestRM.lm) Influence measures oflm(formula = Y ~ X + factor(State)) :dfb.1_ dfb.X dfb.f.S. dffit cov.r cook.d hat inf 1 0.631133 -0.45026 -0.53256 0.70058 0.981 1.54e-01 0.1549 2 0.173140 -0.10751 -0.16842 0.21201 1.233 1.54e-02 0.1224 3 -0.661110 0.38302 0.68141 -0.84988 0.692 2.05e-01 0.1141 4 0.005454 -0.00237 -0.00672 0.00835 1.248 2.42e-05 0.0989 5 -0.461593 0.13908 0.65468 -0.82602 0.614 1.87e-01 0.0936 * 6 0.115497 -0.01162 -0.19612 0.25538 1.146 2.20e-02 0.0911 7 0.162487 0.01638 -0.32154 0.43177 0.998 6.01e-02 0.0910 8 -0.043651 -0.03988 0.13584 -0.19860 1.188 1.35e-02 0.0947 9 -0.004440 0.05248 -0.06500 0.11787 1.252 4.80e-03 0.1134 10 0.059818 -0.16540 0.12062 -0.27619 1.241 2.60e-02 0.1417 11 -0.188716 0.39180 -0.19926 0.56681 1.140 1.05e-01 0.1741 12 -0.108177 0.11867 -0.01675 -0.14592 1.328 7.35e-03 0.1641 13 0.435432 -0.47769 0.07545 0.59537 1.068 1.14e-01 0.1559 14 0.364596 -0.39998 0.07835 0.51426 1.085 8.61e-02 0.1406 15 -0.184317 0.20220 -0.10096 -0.33510 1.074 3.72e-02 0.0874 16 -0.074240 0.08144 -0.04549 -0.14158 1.195 6.89e-03 0.0830 17 -0.007383 0.00810 -0.00574 -0.01581 1.216 8.67e-05 0.0753 18 0.007234 -0.00794 0.03829 0.06904 1.181 1.65e-03 0.0563 19 0.005837 -0.00640 0.05892 0.10296 1.166 3.65e-03 0.0558 20 -0.000919 0.00101 -0.06665 -0.11327 1.160 4.41e-03 0.0556 21 -0.001890 0.00207 -0.13706 -0.23293 1.068 1.81e-02 0.0556 22 0.017410 -0.01910 -0.07996 -0.12764 1.155 5.59e-03 0.0568 23 0.007616 -0.00835 -0.01588 -0.02437 1.199 2.06e-04 0.0630 24 0.164906 -0.18091 -0.22010 -0.33860 1.040 3.77e-02 0.0777 25 -0.032409 0.03555 0.03845 0.05983 1.225 1.24e-03 0.0859 26 -0.015799 0.01733 0.01874 0.02917 1.229 2.95e-04 0.0859 27 -0.273544 0.30009 0.26082 0.42314 1.073 5.87e-02 0.1118 28 -0.341834 0.37501 0.28734 0.48495 1.100 7.70e-02 0.1382 29 0.232338 -0.25488 -0.18096 -0.31478 1.262 3.37e-02 0.1613上面的結果說明,不存在對ANCOVA的結果有明顯影響的樣本。
《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的UA MATH571A ANCOVA简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH566 统计理论 推导卡方
- 下一篇: UA MATH564 概率论 依概率收敛