matlab 最小二乘法拟合_计量与论文串讲:最小二乘法
點
為什么要用R
計量經(jīng)濟學作為經(jīng)濟大類下一門非常實用的學科有很強的實踐意義。盡管內(nèi)容龐雜但基本的指導思想?yún)s很簡單,因此通過一門統(tǒng)計編程語言學習、掌握計量經(jīng)濟學有很大的益處。
目前,市面上已經(jīng)有多款統(tǒng)計編程語言和統(tǒng)計軟件,實證分析領(lǐng)域中STATA始終坐穩(wěn)第一把交椅,相關(guān)的書籍與課程也汗牛充棟。(陳強 2015)(趙西亮 2017)但STATA畢竟是一個在學術(shù)圈范圍內(nèi)比較熱門的商業(yè)軟件,在未來可遷移至工作中的效率便不是很高,同時STATA在處理一些復雜的數(shù)據(jù)或時間序列時,軟件的限制也會導致工作效率的下降。而R語言在此類問題上便有較大的優(yōu)勢,在處理高頻時間序列時其效率便遠高于STATA,對于大數(shù)據(jù)操作而言,也不會受到STATA不同發(fā)行版本的限制。
隨著RStudio的發(fā)布以及Rmarkdown的開發(fā)日趨成熟,利用R進行可復用,甚至整合數(shù)據(jù)操作與文章寫作變成了可能,本文也是利用Rmarkdown完成的教學參考資料,其數(shù)據(jù)操作與統(tǒng)計分析皆在Rmarkdown中完成。
考慮到上述的優(yōu)點,筆者認為利用R語言學習計量經(jīng)濟學是一種效率高、回報高的學習過程。本文主要關(guān)注R語言在計量經(jīng)濟學中的應(yīng)用,以及在數(shù)據(jù)挖掘中的應(yīng)用(如果以后想寫的話),因此對于R語言本身的特性不做系統(tǒng)性展開,但會在需要的時候進行適當?shù)慕忉屌c說明。
回歸:計量經(jīng)濟學的靈魂
我發(fā)現(xiàn)空手道不是掌握那4000個動作就能學好的。想要學好它,關(guān)鍵在于你能不能把那些基本動作不斷反復地操練4000遍。
對于計量經(jīng)濟學而言,這個“基本動作”有兩種普遍的觀點。第一種是由(Angrist and Pischke 2014) 主推的隨機試驗方法, 第二種則是大部分計量經(jīng)濟學教材中采用的,將線性回歸作為計量經(jīng)濟學的基礎(chǔ)。從實用性的角度來說,線性回歸是非常優(yōu)秀的解釋方案,而隨機試驗與匹配統(tǒng)計則顯得挖掘的太過深入,不適合作為本文的邏輯起點。
不要問,問就是做個回歸
為什么線性回歸那么受人喜愛,最主要的原因在于線性回歸的可解釋性是目前為止最直觀,最清晰的。另一方面,線性回歸的解決方案到目前為止也是最清晰、最簡明的方案。不妨考慮勞動經(jīng)濟學的經(jīng)典案例,即教育水平對工資的影響(Wooldridge 2016):
在理想狀態(tài)下(即滿足了線性回歸的假設(shè)條件后),系數(shù)\beta_1可以解釋為每增加1年教育,工資的增量。但現(xiàn)實狀態(tài)下,工資顯然不僅僅受到教育年限的影響,這時候線性回歸的另一個優(yōu)勢就顯現(xiàn)了出來,即線性回歸的系數(shù)\beta_1(在理想狀態(tài)下)代表了在控制了其他因素不變的情況下,對于工資的影響。其理論推導也很簡單,不妨引入另一個會對工資產(chǎn)生影響的變量,工作年限workingAge,上述方程即變?yōu)?/p>
此時,系數(shù)beta1代表了教育年限的邊際影響,不受到工作年限的影響,即有:
如何估計線性回歸的系數(shù)?目前最通用、最優(yōu)的方案依然還是最小二乘法(OLS)。(陳強 2015)
牛刀小試,我們做個回歸
針對上述討論的內(nèi)容,通過R語言便可以很容易實現(xiàn)。對R語言而言,完成一個統(tǒng)計回歸一般分為以下3步:
這個例子中并不涉及清洗數(shù)據(jù),因此只需要導入數(shù)據(jù)即可。
library(haven) #read_dta使用了haven包,因此需要導入haven#導入數(shù)據(jù),數(shù)據(jù)來源為伍德里奇《計量經(jīng)濟學導論-現(xiàn)代觀點》中的數(shù)據(jù)集
WAGE1 "WAGE1.DTA",sep = ""))
完成數(shù)據(jù)導入后,由于本節(jié)不涉及清洗數(shù)據(jù),因此直接對方程進行回歸。
wage_LM #回歸方程命令summary(wage_LM) #回歸結(jié)果##
## Call:
## lm(formula = wage ~ educ + exper, data = WAGE1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.5532 -1.9801 -0.7071 1.2030 15.8370
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.39054 0.76657 -4.423 1.18e-05 ***
## educ 0.64427 0.05381 11.974 < 2e-16 ***
## exper 0.07010 0.01098 6.385 3.78e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.257 on 523 degrees of freedom
## Multiple R-squared: 0.2252, Adjusted R-squared: 0.2222
## F-statistic: 75.99 on 2 and 523 DF, p-value: < 2.2e-16
到這一步為止,我們已經(jīng)完成了一次回歸,但有兩個亟待解決的問題。
第一個問題很容易解決,可以通過引入其他美化輸出結(jié)果的工具解決。第二個問題則留到下一節(jié)進行分析。
library(stargazer) #引入stargazer包,類似于STATA中的outreg2stargazer(wage_LM, title = "線性回歸結(jié)果",
header = F, type = "latex")
什么是不理想狀態(tài)?
一般來說,不理想狀態(tài)有四種狀態(tài),其中內(nèi)生性由于可以單獨成冊、且與最小二乘法無本質(zhì)聯(lián)系故按下不表,其他三個與最小二乘法密切相關(guān)。這三個分別是:
共線性
共線性是所有不理想狀態(tài)中影響最低的一個因素,一般來說,只要變量之間不存在完全的共線性,即對于變量x1與x2而言,只要x1=a+b x2不嚴格成立,即可以避免完全共線性的影響。
自相關(guān)
自相關(guān)往往伴隨著兩種情況出現(xiàn)。第一種情況是時間序列中的自相關(guān),舉例來說,今天的股票價格變動很可能和昨天的股票價格變動有關(guān)系。這種自相關(guān)是時間序列中要解決的一大問題,一般通過滯后項解決。第二種情況是空間溢出中的自相關(guān),舉例來說,上海地區(qū)的房價本身就會存在相關(guān)性。這種自相關(guān)直接導致了空間計量經(jīng)濟學(Spatial Econometrics)的誕生,但也可以通過其他的方式,如增加控制變量解決。一般來說,當自相關(guān)出現(xiàn)時除了上述的兩個解決方案以外,還可以通過聚類穩(wěn)健標準誤的方法解決。
異方差
異方差的分析在初級計量經(jīng)濟學中占據(jù)了大量篇幅,之所以如此,是因為異方差出現(xiàn)會導致對系數(shù)檢驗的統(tǒng)計量失效,即導致了后續(xù)置信度的變化。如果單純只是關(guān)心系數(shù),那么異方差并不會影響結(jié)果,得出的系數(shù)依然無偏估計量。異方差直觀來說,便是擾動項方差不再是一個常數(shù),而是依賴于i。定性來說,同方差條件下,殘差基本是隨機的;異方差條件下,殘差則會出現(xiàn)明顯的函數(shù)特性。
對于上文回歸的結(jié)果,同樣可以通過作圖的方式定性地看其是否符合同方差假設(shè)。從圖中不難發(fā)現(xiàn),上文回歸的結(jié)果還是存在異方差的情況。
plot(wage_LM, which = 1)對于異方差的解決則存在多種方法。從理論的角度來看,廣義最小二乘法(GLS)才是BLUE(最優(yōu)線性無偏統(tǒng)計量)。但從實操的角度來看,這個方法可能并不經(jīng)濟。之所以說其不經(jīng)濟的原因在于通過最小二乘法獲得的結(jié)果是無偏的,只是其檢驗統(tǒng)計量無效,因此更換統(tǒng)計檢驗量便可以解決該問題。目前,做實證分析的數(shù)據(jù)往往已經(jīng)有充足的數(shù)據(jù)量,因此直接采用穩(wěn)健標準誤(Eicker 1967)修正統(tǒng)計量的有效性即可。
經(jīng)典:電力部門的規(guī)模報酬
每每寫到實證論文部分,尤其是利用最小二乘法的文章,Nerlove(1961)是一篇完全無法回避的經(jīng)典文章,這篇文章也成為了諸多計量經(jīng)濟學教材中必定錄取的參考文獻。(Nerlove 1963)(Wooldridge 2016)(Hayashi 2000) 這篇文章想要度量的是美國電力供應(yīng)行業(yè)規(guī)模報酬效應(yīng)(Nerlove 1963),對應(yīng)的產(chǎn)出范圍又是多少。由于本文十分經(jīng)典,其數(shù)據(jù)集也已經(jīng)成為了公開數(shù)據(jù)集,可以直接在R內(nèi)引用。
psych::describe(nerlove)[,c("n","mean","sd","median","min","max")]| tc | 145 | 12.9760965 | 19.7945767 | 6.7540002 | 0.0820000 | 1.394220e+02 |
| q | 145 | 2133.0827586 | 2931.9421310 | 1109.0000000 | 2.0000000 | 1.671900e+04 |
| pl | 145 | 1.9765517 | 0.2300404 | 2.0000000 | 1.5000000 | 2.300000e+00 |
| pf | 145 | 26.1765517 | 7.8760714 | 26.8999996 | 10.3000002 | 4.280000e+01 |
| pk | 145 | 174.4965517 | 18.2094771 | 170.0000000 | 138.0000000 | 2.330000e+02 |
| lntc | 145 | 1.7246633 | 1.4217234 | 1.9101349 | -2.5010359 | 4.937505e+00 |
| lnq | 145 | 6.5566511 | 1.9127924 | 7.0112138 | 0.6931472 | 9.724301e+00 |
| lnpf | 145 | 3.2088584 | 0.3589002 | 3.2921262 | 2.3321440 | 3.756538e+00 |
| lnpk | 145 | 5.1567768 | 0.1003898 | 5.1357985 | 4.9272537 | 5.451038e+00 |
| lnpl | 145 | 0.6743732 | 0.1197522 | 0.6931472 | 0.4054651 | 8.329091e-01 |
1-10 of 10 rows
數(shù)據(jù)中,tc為總成本,q為產(chǎn)出數(shù)量,pl為勞動價格,pf為燃油價格,pk為資本價格。在估計的過程中,Nerlove從Cobb-Douglas產(chǎn)出函數(shù)開始設(shè)定模型。
模型中,Q代表了i公司的產(chǎn)出,L代表了i公司的勞動投入,K代表了i公司的資本投入,F代表了i公司為了發(fā)電投入的燃油。A則代表了不同公司的不可觀察的產(chǎn)出效率。方程 衡量了規(guī)模效應(yīng)。由于電力部門的產(chǎn)出即為需求,因此電力部門的收益最大化即成本最小化,可以概述為以下的優(yōu)化條件:
于是對于公司i而言,其Cobb-Douglas成本函數(shù)便為:
minLiKiFiTCi=pilLi+pikKi+pifFis.t.AiLiα1Kiα2Fiα3=Qi" role="presentation" style=" box-sizing: border-box; line-height: normal; font-size: 14px; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border-width: 0px; border-style: initial; border-color: initial; display: table-cell !important; width: 10000em !important; text-align: left; ">利用自然對數(shù)函數(shù)的特征,便可以將上述函數(shù)變?yōu)榫€性函數(shù)。
在設(shè)定了模型之后,便是對最小二乘法的適用性展開討論。這也是本文之所以作為經(jīng)典論文最主要的原因。
library(lmtest)
library(sandwich)
base_reg print(summary(base_reg))##
## Call:
## lm(formula = lntc ~ lnq + lnpl + lnpk + lnpf, data = nerlove)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.97203 -0.23377 -0.01091 0.16185 1.80985
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.56651 1.77938 -2.004 0.047 *
## lnq 0.72091 0.01743 41.352 < 2e-16 ***
## lnpl 0.45596 0.29980 1.521 0.131
## lnpk -0.21515 0.33983 -0.633 0.528
## lnpf 0.42581 0.10032 4.244 3.97e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3923 on 140 degrees of freedom
## Multiple R-squared: 0.926, Adjusted R-squared: 0.9239
## F-statistic: 437.9 on 4 and 140 DF, p-value: < 2.2e-16
上面是直接回歸得到的結(jié)果,為了檢驗是否滿足同方差假設(shè)條件,不妨從圖示入手。從圖中容易發(fā)現(xiàn),殘差項的確無法滿足同方差條件,而是呈現(xiàn)出了二次函數(shù)的狀態(tài)。
plot(base_reg, which = 1)為此,進一步考慮采用穩(wěn)健統(tǒng)計量進行處理。容易發(fā)現(xiàn),通過穩(wěn)健統(tǒng)計量進行處理后,估計的系數(shù)的確沒有變化,而是t統(tǒng)計量產(chǎn)生了差異。
Nerlove也正是通過對最小二乘法中高斯馬爾科夫定理成立的五大條件的細致論述,將他的論文流芳百世。對于論文作者而言,Nerlove(1963)最重要的啟示是通過產(chǎn)業(yè)或研究的數(shù)據(jù)集的實際情況對計量模型適用性進行分析,分析的過程越充分,那么結(jié)果也就越具備說服力,也就可以發(fā)更好的期刊。同樣細致分析模型的文章還有白重恩(2012)對遺漏變量的解釋(白重恩, 李宏彬, and 吳斌珍 2012),未來在分析面板數(shù)據(jù)模型的時候,也會講到這篇文章。
結(jié)語
本文回顧了計量經(jīng)濟學中最基礎(chǔ)的線性回歸與最小二乘法,并通過Nerlove(1963)的經(jīng)典論文大致闡述了一篇優(yōu)秀的所需要具備的基本條件。通過本文,讀者應(yīng)當能夠利用R語言在借助優(yōu)質(zhì)的數(shù)據(jù)集,通過最小二乘法完成一篇相關(guān)的計量文章復現(xiàn)。
參考文獻
總結(jié)
以上是生活随笔為你收集整理的matlab 最小二乘法拟合_计量与论文串讲:最小二乘法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 普通的单模光纤和单模光纤跳线是否可以达到
- 下一篇: 稳定性测试(monkey)