UA MATH571A R语言回归分析实践 一元回归1 NBA球员的工资
UA MATH571A R語言回歸分析實(shí)踐 一元回歸1 NBA球員的工資
- 基礎(chǔ)回歸分析
571A另一個(gè)系列的文章介紹了回歸分析的理論,這個(gè)系列的文章介紹R語言做回歸分析的實(shí)踐,但不會(huì)涉及R語言編程,只是介紹回歸分析需要的命令、怎么輸入以及怎么解釋輸出。
NBA球員的draft number與他們的工資之間是有一定的關(guān)系的。NBA Draft簡(jiǎn)單理解就是球隊(duì)pick心儀的新球員,players selected number 1 overall相當(dāng)于就是C位,比如2002年的C位就是姚明,他的draft number就是1。所以我們的一個(gè)直覺就是新球員的draft number越小(名次越高),他的工資就應(yīng)該越高。在這個(gè)系列的博文中,我們用2017-2018 NBA draft的數(shù)據(jù)為例,來驗(yàn)證一下我們的直覺,這個(gè)數(shù)據(jù)我上傳了的,需要的話可以找來下載。
基礎(chǔ)回歸分析
首先讀取數(shù)據(jù),先簡(jiǎn)單看一下數(shù)據(jù)在excel里面的樣子
自己嘗試的時(shí)候記得用setwd修改工作目錄,讀取數(shù)據(jù)的時(shí)候如果數(shù)據(jù)存在工作目錄下read.csv第一個(gè)輸入的位置可以直接寫filename不用寫文件的路徑,如果數(shù)據(jù)沒有存在工作目錄下的,就要把文件的路徑寫完整。這個(gè)文件讀進(jìn)來以后可能是變量類型是char,要做回歸的話用as.numeric轉(zhuǎn)成num就可以了。
接下來用lm命令做線性回歸就可以了,lm是R語言估計(jì)線性模型的函數(shù)。第一條命令做工資關(guān)于名次的回歸,把結(jié)果存在ureg01.lm中,第二行輸出結(jié)果的一些總結(jié)信息。
> ureg01.lm <- lm(Y~X) > summary(ureg01.lm)Call: lm(formula = Y ~ X)Residuals:Min 1Q Median 3Q Max -9901919 -4761884 -1586787 2215989 27551106 Coefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) 10285438 440112 23.37 <2e-16 *** X -139730 11404 -12.25 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 6365000 on 649 degrees of freedom Multiple R-squared: 0.1879, Adjusted R-squared: 0.1866 F-statistic: 150.1 on 1 and 649 DF, p-value: < 2.2e-16第二行以下的內(nèi)容就是回歸結(jié)果的總結(jié)。call后面這個(gè)是回歸命令,公式是Y~X,意思就是我們執(zhí)行了Y關(guān)于X的回歸。residual后面的是殘差的描述性統(tǒng)計(jì),從左到右分別是殘差的最小值、25%分位點(diǎn),中位數(shù),75%分位點(diǎn)以及最大值。Coefficients后面是系數(shù)的估計(jì),一元回歸只有截距項(xiàng)和解釋變量X的系數(shù)。第一列是系數(shù)的估計(jì)值,10285438在這個(gè)問題下面的解釋是如果有第0名存在,那么工資估計(jì)就是這么多,-139730表示名次每降一名,工資平均會(huì)降139730,也就是說我們之前的直覺是對(duì)的,名次越低工資越低。第二列是系數(shù)的估計(jì)量的方差,第三列是系數(shù)估計(jì)量的t統(tǒng)計(jì)量,第四列是系數(shù)估計(jì)量的t檢驗(yàn)的p值,這里的t檢驗(yàn)原假設(shè)是系數(shù)為0,因?yàn)檫@兩個(gè)p值都非常小,所以我們可以很自信地拒絕原假設(shè),認(rèn)同名次越低工資也會(huì)越低的假設(shè)。倒數(shù)第三行是殘差的標(biāo)準(zhǔn)誤(標(biāo)準(zhǔn)差)以及相應(yīng)的自由度,這里一共有651個(gè)樣本,所以總自由度是650,回歸模型占一個(gè)自由度,所以誤差自由度是649。倒數(shù)第二行是R方的結(jié)果,第一個(gè)R方是多元回歸的R方,就是根據(jù)殘差平方和、回歸平方和以及自由度調(diào)整計(jì)算出來的,一般看這個(gè)R方就可以了,這個(gè)0.1879表示這個(gè)一元線性回歸模型可以解釋18.79%的工資的變化(也就是說這個(gè)模型解釋力其實(shí)很低,名次對(duì)于球員工資沒有主要的解釋力);第二個(gè)R方是考慮到只要我們不斷增加解釋變量,第一個(gè)R方根據(jù)定義的話它就會(huì)不斷變大,但這種變大沒有意義,因?yàn)槟P涂赡苁沁^擬合的狀態(tài),所以第二個(gè)R方相對(duì)于第一個(gè)會(huì)把模型的復(fù)雜度考慮進(jìn)去,在第一個(gè)R方的基礎(chǔ)上,模型越復(fù)雜,第二個(gè)R方就會(huì)越小。最后一行是對(duì)模型整體的檢驗(yàn),它的原假設(shè)是截距與X的系數(shù)都為0,這里F統(tǒng)計(jì)量是150.1,自由度是1和649,p值非常小,說明我們可以拒絕原假設(shè),認(rèn)為并非截距和X的系數(shù)都是0,也就是說這個(gè)模型還是有意義的。
現(xiàn)在我們有了第一個(gè)解釋球員工資的模型,它可以用回歸方程表示出來:
Y^=10285438?139730X\hat{Y} = 10285438-139730XY^=10285438?139730X
用這個(gè)模型我們可以做一些簡(jiǎn)單的擬合與預(yù)測(cè)。如果某位球員名次是43名,根據(jù)這個(gè)模型我們可以估計(jì)他的工資應(yīng)該是
用來做擬合和預(yù)測(cè)的都是predict函數(shù),輸入第一項(xiàng)是模型對(duì)象,我們這個(gè)問題的模型對(duì)象就是之前估計(jì)得到的ureg01.lm,輸入第二項(xiàng)newdata = 后面要接的類型數(shù)據(jù)框,需要用data.frame做一個(gè)轉(zhuǎn)換,第三項(xiàng)是選擇區(qū)間估計(jì)的類型,在做predict的時(shí)候,區(qū)間估計(jì)類型有兩種,擬合和預(yù)測(cè),擬合用conf表示,預(yù)測(cè)用predict表示,同樣的置信水平下擬合的置信區(qū)間更短,因?yàn)轭A(yù)測(cè)會(huì)把新樣本也看成是隨機(jī)變量,會(huì)讓Y的估計(jì)值方差更大。第四項(xiàng)是置信水平。輸出第一列是fit,也就是擬合值,如果某球員名次是43,那么根據(jù)模型估計(jì)的工資就是4277046,置信區(qū)間是[3726681,4827410],也就是說我們有95%的把握他的工資會(huì)在這個(gè)區(qū)間內(nèi)。
再多提一下這個(gè)數(shù)據(jù)框,因?yàn)椴挥脭?shù)據(jù)框或者用的數(shù)據(jù)框和模型對(duì)象的不一致就會(huì)報(bào)錯(cuò),如果是多個(gè)待擬合對(duì)象,我們也要用data.frame把它變成數(shù)據(jù)框,
> predict(ureg01.lm,newdata = data.frame(X=c(43,44)),interval = "conf",level = 0.95)fit lwr upr 1 4277046 3726681 4827410 2 4137316 3576386 4698245現(xiàn)在討論預(yù)測(cè),假設(shè)有一個(gè)球員名次是43名,想要預(yù)測(cè)他的工資大概是多少,我們也用predict,只是區(qū)間估計(jì)命令換成pred
> predict(ureg01.lm,newdata = data.frame(X=43),interval = "pred",level = 0.95)fit lwr upr 1 4277046 -8232809 16786901可以發(fā)現(xiàn)第一列的結(jié)果和擬合是一樣的,只是區(qū)間估計(jì)的結(jié)果不一樣了,相同的置信水平下,預(yù)測(cè)的置信區(qū)間會(huì)比擬合的更大,但如果這名球員是沒有被估計(jì)模型的樣本包括在內(nèi)的,一般我們還是需要用預(yù)測(cè)的。
總結(jié)
以上是生活随笔為你收集整理的UA MATH571A R语言回归分析实践 一元回归1 NBA球员的工资的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH564 概率论III 期望
- 下一篇: UA MATH571A R语言回归分析实