r语言 面板数据回归_R语言——伍德里奇计量经济导论案例实践 第十三章 横截面与面板数据(一)...
生活随笔
收集整理的這篇文章主要介紹了
r语言 面板数据回归_R语言——伍德里奇计量经济导论案例实践 第十三章 横截面与面板数据(一)...
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
哈嘍,停更了大概有三周的計量筆記又要重新開始啦!雖然美國的疫情沒有停歇的跡象,可是依舊阻擋不了大學開學的熱情。從8月3號開始上課到現在,也經歷了很多事情,每天都是抱著死豬不怕開水燙的心情,暗地里安慰自己已經群體免疫。除了疫情外,最讓人頭疼的就是開學后的各種作業啦,計量的各種證明題著實易讓人崩潰。幸好,每次翻開伍德里奇的教材都有種親切感,所以這本書的計量筆記還能繼續更新。從第十三章開始,這本書就進入了第三部分,涉及的內容是一些較為高級的計量模型。使用伍德里奇這本教材授課,一般不會涉及第三部分的章節,除非計量課程分兩個學期進行授課。第十三章的前半部分講述了獨立混合橫截面數據 (independently pooled cross section 我的中文翻譯很可能是錯的) 的分析方法,后半部分講述了面板數據 (panel data) 的分析方法。因為內容太多,所以我的筆記也分成兩篇,今天這篇先講independently pooled cross section有關的內容。簡言之,獨立混合橫截面數據就是在時間軸上選取不同的時間節點對總體數據進行抽樣。比如為了研究某地區某項政策對女性職場收入的影響,我們在政策實施之前對該地區的女性進行抽樣調查獲得橫截面數據,在政策實施兩年后,再進行一次隨機抽樣調查獲得橫截面數據,因為第二次也是隨機抽樣,所以第一次受訪的調查對象有可能會再次接受采訪,也可能沒有接受到采訪。而面板數據在不同的時間節點并沒有都進行隨機抽樣,只有在第一個時間節點進行了隨機抽樣,而后就固定跟蹤觀察第一次隨機抽樣的觀察對象,記錄相應數據,有點類似于時間序列。比如同樣是研究女性職場收入,面板數據在第一次進行隨機抽樣后,兩年后是對第一次的受訪女性進行回訪,采集到新的薪酬數據。如果你還沒太明白,那就是我中文解釋的太爛~在這里還是推薦閱讀原版教材,英語解釋概念確實較為清晰。
一、Independently Pooled?Cross?Section使用混合獨立橫截面數據的一大動力就是可以獲得容量更大的樣本,如果我們假設自變量對因變量的效應在不同的時間點是不變的,比如每多接受一年教育對薪酬的效應在1990年是增加0.98美元,在2000年依然是增加0.98美元,那么使用混合獨立橫截面數據就不會帶來特別大的問題,并且因為樣本容量大了,我們的估計值就可以更精確 (還記得第四章漸近性的內容嘛)。不過因變量在不同的時間節點的期望值分布可能會有所不同,所以一般我們會使用year dummy來允許我們的線性回歸方程在不同的時間節點有不同的截距,同時又保證了自變量的局部效應是不變的。書上的例子13.1: Women's Fertility over Time就是典型的混合獨立橫截面,數據fertil1包括了從1972年到1984年偶數年份的對美國女性生育率的隨機抽樣調查,年份在這里被設置為了dummy variable,當我們控制了其他可能影響生育率的變量之后,如果year dummy的系數還是顯著的,即表明不同時間點的生育率有著大不同,而這些不同并不是因為被控制的變量造成的。下面是該例子的R語言代碼:###?導入數據處理包library(tidyverse)###?導入數據library(wooldridge)###?導入相關檢驗命令符包library(lmtest)library(car)###?導入數據輸出包library(stargazer)### 添加year dummy進行回歸lm_fertility 2) + black + east + northcen + west + farm + othrural + town + smcity + y74 + y76 + y78 + y80 + y82 + y84, data = fertil1)summary(lm_fertility)### 在R語言中我們一般把dummy當作factor進行處理### 我們可以把數據里的年份變量設置為dummy然后對year這一個變量進行回歸### 效果和上面的單獨設置year dummy是一樣的### 創建新的表格 將year設置為factorfer % mutate(year = factor(year)) ### 對year進行回歸lm_fer 2) + black + east + northcen + west + farm + othrural + town + smcity + year, data = fer)summary(lm_fer)
一、Independently Pooled?Cross?Section使用混合獨立橫截面數據的一大動力就是可以獲得容量更大的樣本,如果我們假設自變量對因變量的效應在不同的時間點是不變的,比如每多接受一年教育對薪酬的效應在1990年是增加0.98美元,在2000年依然是增加0.98美元,那么使用混合獨立橫截面數據就不會帶來特別大的問題,并且因為樣本容量大了,我們的估計值就可以更精確 (還記得第四章漸近性的內容嘛)。不過因變量在不同的時間節點的期望值分布可能會有所不同,所以一般我們會使用year dummy來允許我們的線性回歸方程在不同的時間節點有不同的截距,同時又保證了自變量的局部效應是不變的。書上的例子13.1: Women's Fertility over Time就是典型的混合獨立橫截面,數據fertil1包括了從1972年到1984年偶數年份的對美國女性生育率的隨機抽樣調查,年份在這里被設置為了dummy variable,當我們控制了其他可能影響生育率的變量之后,如果year dummy的系數還是顯著的,即表明不同時間點的生育率有著大不同,而這些不同并不是因為被控制的變量造成的。下面是該例子的R語言代碼:###?導入數據處理包library(tidyverse)###?導入數據library(wooldridge)###?導入相關檢驗命令符包library(lmtest)library(car)###?導入數據輸出包library(stargazer)### 添加year dummy進行回歸lm_fertility 2) + black + east + northcen + west + farm + othrural + town + smcity + y74 + y76 + y78 + y80 + y82 + y84, data = fertil1)summary(lm_fertility)### 在R語言中我們一般把dummy當作factor進行處理### 我們可以把數據里的年份變量設置為dummy然后對year這一個變量進行回歸### 效果和上面的單獨設置year dummy是一樣的### 創建新的表格 將year設置為factorfer % mutate(year = factor(year)) ### 對year進行回歸lm_fer 2) + black + east + northcen + west + farm + othrural + town + smcity + year, data = fer)summary(lm_fer)
?
當我們控制住其他可能影響生育率的變量后,根據結果我們可以發現,和1972年相比,生育率在1982年和1984年急劇下降,根據t statistic和p-value我們也可發現結果是顯著的。在生育率這個例子中,我們假設了自變量在不同時間點對因變量的局部效應是恒定的,比如在我們的回歸結果中,自變量educ受教育年限的系數值約為-0.128,即當其他變量不變時,100位多接受一年教育的女性平均會少生大概12個孩子,這個效果在不同的年份都是一樣的。但我們都知道,這是非常不符合實際情況的,比如隨著教育的普及,多接受一年教育對薪酬的局部效應在1950年和在1990年肯定是不同的。在之前的第七章我們已經提到過,我們可以添加year dummy與自變量的交互項來允許改變不同時間節點的自變量的系數值。課本中的eg 13.2: Changes in the Return to Education and the Gender Wage Gap研究了1978年和1985年這兩個不同年份的關于薪酬的橫截面數據。我們在回歸中加入了year dummy和year dummy與自變量educ以及gender的交互項,如果year dummy和交互項的系數都是顯著的,也即表明薪酬在1978年和1985年這兩個不同時間節點有著不同的分布。使用數據cps78_85,下面為R語言代碼:### 對year進行回歸lm_cps 2) + union + female + female:y85, data = cps78_85)summary(lm_cps)根據回歸結果我們可知,受教育水平在1978年的局部效應約為0.747,在2018年局部效應就變為0.747 + 0.185 = 0.933左右。二、Difference-in-Difference獨立混合橫截面數據在分析事件或政策的影響方面有著非常大的作用,其中最有名的當屬David Card和Alan B. Krueger在1994年發表于AER的論文Minimum Wage and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania,這篇論文使用了雙重差分法 (Difference-in-Difference) 研究了新澤西州新的最低工資標準政策對該地區的就業率的影響。一般來說,因果關系是很難判定的。以這篇論文為例,影響就業率的因素有很多,尤其是涉及到時間跨度。可能在政策施行之后恰好趕上經濟上升期,就業率也隨之上升,那我們就無法得知就業率的變化是否全部或部分由于新的最低工資標準政策導致的。雙重差分法為了解決這個問題,引入了一個比較對象。比如要研究舊金山地區的犯罪率,首先找一個各方面條件都與舊金山接近的一個地區作為對照組,即如果不考慮任何人為干預的因素,兩個地區的犯罪率隨著時間的自然推移變化是基本一致的。首先比較舊金山地區實施某種政策前后犯罪率的變化,我們得到第一重差分T + E,這里的E表示因為政策實施而受到影響的部分,一般我們稱為treatment effect,T表示其他所有影響犯罪率的變量因素。而作為對照組的Waco地區,沒有實施相應的政策,所以在兩個時間點前后的第一重差分只有T,此時將得到的兩個第一重差分再進行差分,即可得到我們想要的政策的局部效應。下圖進一步說明雙重差分法,紅色線代表我們的實驗組即上文中提到的舊金山,黑色線代表我們的對照組,即Waco地區。從圖可知,如果兩個地區均不施加任何政策影響,則隨著時間推移兩地的犯罪率變化趨勢是一致的 (舊金山是紅色實線加虛線)。在x = 4這個時間節點,我們對舊金山施加處理,則其犯罪率走勢紅色虛線變為紅色實線,兩地的差異變為AC。如果沒有對舊金山施加處理,則之后的時間節點兩者的差異應該為BC,由此可看出AB段即為可能的政策影響效果E。換言之,在無政策實施的情況下,從x = 4這個時間節點到x = 6,兩地的犯罪率變化的幅度應該是基本一致的,即F - B = D - C,對實驗組施加處理以后,實驗組變為F - A,對照組依舊為D - C,所以受處理影響的部分即為(D - C) - (F - A) =?(F - B) - (F - A) = A - B。如果用計量回歸方程來表示,即為:這里的d2和dT均為dummy variable,d2 = 1即表示在實驗之后,dT = 1即表示屬于實驗組。當dT = 1, d2 = 0時:當dT = 1, d2 = 1時:通過差分可獲得實驗組試驗前后的自變量的變化:當dT = 0, d2 = 0時:當dT = 0, d2 = 1時:通過差分可獲得對照組試驗前后的自變量的變化:通過雙重差分獲得treatment effect:我們在差分的過程中把可能影響因變量的因素都消除掉了,最后剩下的系數即為施加處理后的效應。我們以書中的eg 13.3: Effect of a Garbage Incinerator's Location on Housing Prices為例,所使用的數據為kielmc,這個案例探究了在住宅區附近修建垃圾焚燒廠對房價的影響。直覺上看,在住宅周邊修建垃圾焚燒廠肯定會使房價下跌,但是影響房價的因素有很多,比如房子已經建成的時間、房子的大小等等,我們希望通過雙重差分法來消除其他因素對房價的影響,確定垃圾焚燒廠與房價之間的因果關系。我們在回歸中使用了兩個dummy,y81 = 1時表示時間點在1981年即修建垃圾焚燒廠之后,nearinc = 1表示房子距離垃圾焚燒廠較近。###?未添加控制變量?僅有year?dummy和lm_price1 ###?添加age變量?即房子已經建成多久lm_price2 2), data = kielmc)###?繼續添加新的控制變量?包括大小、房間數量等lm_price3 2) + intst + land + area + rooms + baths, data = kielmc)###?輸出表格?在LaTex中顯示###?表格中只顯示了dummy的系數值和截距###?表格中最后一行Other?controls是我在LaTex代碼中手動添加的stargazer(lm_price1, lm_price2, lm_price3,??????????omit?=?c("age",?"I(age^2)",?"intst",?"land",?"area",?"rooms",?"baths"))這里我們關注的就是y81:nearinc這個變量的系數,也即treatment effect,我們可以發現添加控制變量后treatment effect的系數值變化很大,并且結果由不顯著變為顯著。對比這三個回歸,很明顯第三個是最好的,我們添加進去的變量基本包括了影響房價的各種因素,房價很大程度上是由這些變量決定的,也因此我們的dummy變量nearinc的系數值相較之下顯得非常小。總結
以上是生活随笔為你收集整理的r语言 面板数据回归_R语言——伍德里奇计量经济导论案例实践 第十三章 横截面与面板数据(一)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: es6 对象中是否有键值_干货| ES6
- 下一篇: 婚纱照嘴巴有点凸好p吗_丑拒80寸奢华大