UA MATH571A R语言回归分析实践 一元回归3 NBA球员的工资
UA MATH571A R語(yǔ)言回歸分析實(shí)踐 一元回歸3 NBA球員的工資
- 殘差分析
- 正態(tài)性、同方差性的檢驗(yàn)
- 欠擬合檢驗(yàn)
前兩講已經(jīng)完成了大致的分析了,我們已經(jīng)明確了NBA球員名次與工資的負(fù)相關(guān)關(guān)系,接下來(lái)我們對(duì)一元線性回歸模型做個(gè)診斷,看看為什么它的解釋力很弱。
殘差分析
做殘差分析以前,我們先來(lái)看看解釋變量X,這里就看看點(diǎn)圖和序列圖
dotchart(X)# dot plot I <- c(1:651) # 651 is the sample size plot(I,X,type = "l")# sequence plot
這個(gè)點(diǎn)圖告訴我們兩個(gè)信息,第一個(gè)信息是Draft Number是62的選手未必太多了點(diǎn),這是很典型的刪失數(shù)據(jù)的特征,計(jì)量經(jīng)濟(jì)學(xué)告訴我們應(yīng)該用Tobit模型來(lái)分析這種數(shù)據(jù);第二個(gè)信息是一個(gè)X的值可能對(duì)應(yīng)多個(gè)Y的值,這說(shuō)明數(shù)據(jù)存在replicate,我們有理由懷疑一元線性回歸是欠擬合的。考慮到這個(gè)是講回歸分析的文章,就先不介紹Tobit模型怎么處理這個(gè)例子了,但之后我們需要做一個(gè)欠擬合檢驗(yàn),看看一元線性回歸是不是真的欠擬合。
這個(gè)序列圖不存在什么特別的模式,我們可以借此排除掉序列相關(guān)性。
看完解釋變量的特征后,我們?cè)賮?lái)看看殘差的特征。
plot(resid(ureg01.lm)~I,type = "l") abline(h=0)
這是殘差的序列圖,里面也沒(méi)有很神奇的模式,所以殘差也是不存在序列相關(guān)的。解釋一下plot函數(shù),比如想畫X關(guān)于Y的圖第一個(gè)輸入可以是Y~X,也可以是X,Y。resid函數(shù)會(huì)返回模型對(duì)象的殘差,也可以用ureg01.lm$residuals代替,那個(gè)$就是訪問(wèn)模型對(duì)象的某個(gè)屬性。abline是輔助線的命令,h=0表示是截距為0的水平線。
這個(gè)是殘差關(guān)于解釋變量的圖,我們能看出兩個(gè)信息:62那個(gè)位置存在刪失、已經(jīng)存在一個(gè)明顯的非線性的模式,因此模型關(guān)于X很可能不應(yīng)該是線性的。刪失先按下不表,關(guān)于模型關(guān)于X非線性的問(wèn)題,我們之后可以做一個(gè)Box-Cox變換來(lái)解決。
這個(gè)是殘差關(guān)于擬合值的圖,它能告訴我們的信息和殘差關(guān)于X的差不多,就不細(xì)說(shuō)了。但殘差圖中的這種模式還說(shuō)明殘差可能并不具有同方差的性質(zhì),我們有必要再做一個(gè)同方差檢驗(yàn)判斷一下。plot中用了一個(gè)resid,它返回一個(gè)模型對(duì)象的擬合值,也可以用ureg01.lm$fitted.values代替。
正態(tài)性、同方差性的檢驗(yàn)
先做一個(gè)QQ圖來(lái)看一下
qqnorm(ureg01.lm$residuals)
比較明顯,這個(gè)完全不是線性關(guān)系,基本可以否定殘差是服從正態(tài)分布的,為了保險(xiǎn)起見(jiàn),還是做一下假設(shè)檢驗(yàn)看看。用Shapiro檢驗(yàn)
發(fā)現(xiàn)p值非常小,可以顯著拒絕原假設(shè)(正態(tài)性檢驗(yàn)的原假設(shè)是服從正態(tài)分布),認(rèn)同殘差的確不服從正態(tài)分布。
關(guān)于殘差的分布還需要做一下同方差檢驗(yàn),一般用Brown-Forsythe檢驗(yàn)就可以。為了做這個(gè)檢驗(yàn),我們需要先下載一個(gè)包,
install.packages("car")做這個(gè)檢驗(yàn)的思路其實(shí)是把樣本分成不同的group,檢驗(yàn)是不是所有g(shù)roup的殘差都是同方差的,只要有任意兩個(gè)group殘差不是同方差的,那么同方差假設(shè)就不成立,一般分類可以依據(jù)之前畫的殘差圖來(lái)分類。這里我就簡(jiǎn)單分兩類,把名次在30以內(nèi)的分為一類,在30以外的分為另一類,也就是第三行,分好類別忘了把類別用as.factor變成一個(gè)factor。然后用car包中的levene檢驗(yàn)的函數(shù)來(lái)做檢驗(yàn),輸入的時(shí)候殘差需要根據(jù)X排序。根據(jù)p值,我們可以拒絕原假設(shè)(同方差),所以同方差的確是不成立。
> library(car) > ei <- resid(ureg01.lm) > G<-(X<30)[order(X)] > group<-as.factor(G) > BF.htest <- leveneTest(ei[order(X)],group) > BF.htest Levene's Test for Homogeneity of Variance (center = median)Df F value Pr(>F) group 1 48.474 8.218e-12 ***649 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1欠擬合檢驗(yàn)
接下來(lái)我們需要驗(yàn)證一下模型是不是欠擬合了,我們用lack-of-fit ANOVA來(lái)完成這個(gè)檢驗(yàn)。因?yàn)榇嬖趓eplicate,所以full model應(yīng)該是factor model,reduced model才是一元線性回歸。第一行就是估計(jì)factor model的code,只需要把X變成factor(X)就好,然后用ANOVA分析這兩個(gè)模型,注意是reduced model的模型對(duì)象在前,full model的在后。看ANOVA的那個(gè)p值,在0.1的顯著性水平下我們應(yīng)該拒絕原假設(shè),即full model和reduced model還是有差別的,模型存在欠擬合,我們應(yīng)該用full model;在0.05或者0.01的顯著性水平下,我們不能拒絕原假設(shè),即兩種模型沒(méi)有差別。
> fmodel.lm <- lm(Y ~ factor(X)) > anova(ureg01.lm,fmodel.lm) Analysis of Variance TableModel 1: Y ~ X Model 2: Y ~ factor(X)Res.Df RSS Df Sum of Sq F Pr(>F) 1 649 2.6290e+16 2 591 2.3267e+16 58 3.0227e+15 1.3238 0.06068 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1最后總結(jié)一下我們?cè)\斷出的這個(gè)模型存在的問(wèn)題:
總結(jié)
以上是生活随笔為你收集整理的UA MATH571A R语言回归分析实践 一元回归3 NBA球员的工资的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: UA MATH571A R语言回归分析实
- 下一篇: UA MATH571A R语言回归分析实