第16章Stata面板数据分析
? ? ? ?
目錄
16.1短面板數據分析
案例延伸
延伸:關于模型的選擇問題
16.2長面板數據
案例延伸
延伸:進行隨即系數模型回歸分析
????????面板數據(Panel Data)又被稱為平行數據,指的是對某變量在一定時間內持續跟蹤觀測的結果。面板數據兼具了橫截面數據和時間序列數據的特點,即有橫截面維度(在同一時間段內有多個觀測樣本),又有時間序列維度(同一樣本在多個時間段內被觀測到)。面板數據通常樣本數量相對較多,也可以有效解決遺漏變量的問題,還可以提供更多樣本動態行為的信息,具有橫截面數據和時間序列數據無可比擬的優勢。根據橫截面為度和時間序列維度相對長度的大小,面板數據被區分為長面板數據和短面板數據。????????
16.1短面板數據分析
? ? ? ? 短面板數據其主要特征是橫截面為度比較大而時間維度相對較小,或者說,同一期間內被觀測的個體數量較多而被觀測的期間較少。段面板數據分析方法包括直接最小二乘回歸分析、固定效應回歸分析、隨機效應回歸分析、組間估計量回歸分析等多種。
? ? ? ? 案例(16.1)A公司是一家銷售飲料的連鎖公司,下面是銷售公司在各省市連鎖店2008-2012年的橡樹銷售數據(包括銷售收入、小小費用以及創造利潤等數據)。試用短面板數據回歸分析方法深入研究銷售量和據消費用對制造利潤的影響關系。變量包括年份、銷售收入、促銷費用、創造利潤、地區。
???
encode diqu ,gen(region) #因為面板數據要求其中的個體變量取值必須為證書而且不允許有重復,所以需要對各個觀測樣本進行有序編號。本命令旨在講地區這一字符串變量轉化為數值型變量,以便下一步操作xtest region year #本命令的含義是對面板數據進行定義,其中橫截面為度變量為上步生成的region,時間序列變量為year? ? ? ? 可以看出這是一個平衡的面板數據。?
xtdes #本命令旨在觀測變慢數據的結構,考察面板數據特征,為后續分析做好必要準備? ? ? ? ?從上圖可以看出該面板數據的橫截面維度region為1~20共20個取值,時間序列維度year為2008-2012共5個取值,屬于短面板數據,而且觀測樣本在時間上的分布也非常的均勻。
xtsum #本命令旨在現實面板數據組內、組件以及整體的統計指標? ? ? ? ?上圖是面板數據組內、組間以及整體的統計指標的結果。在短面板數據中,同一時間段內的不同觀測樣本構成一個組。從圖中可以看出變量year的組間標準差是0,因為不同組的這一變量取值完全相同,同時變量region的組內標準差也為0,因為分布在同一組的數據屬于同一個地區。
xttab sale #本命令旨在現實“sale”變量組內、組間以及整體的分布頻率。 xttab cost xttab profit? ? ? ? 上圖是sale變量組內、組間以及整體的分布頻率的結果。
xtline sale #本命令旨在對每個個體現實“sale”變量的時間序列圖 xtline cost xtline profit? ? ? ? ?上圖是sale的時間序列圖,我們可以看到不同地區的銷售收入是不一樣的有的高有的低,從圖中我們還可以看到sale變量在各個地區的時間趨勢。
reg profit sale cost #本命令是以profit為因變量,以sale,cost為自變量,進行最小二乘回歸分析。? ? ? ? ?上圖的解析就不多說了。可從上述分析結果我們可以得到最小二乘模型的回歸方程是:
? ? ? ? profit = 0.0041186*sale+0.862813*cost-0.4981994
? ? ? ? 得到的結論是該單位創造利潤情況與銷售量和促銷費用等都是顯著呈正向變化的。
reg profit sale cost,vce(cluster region) #本命令的含義是以sale、cost為自變量,profit為因變量,并且使用以 region 為聚類變量的聚類穩健標準差,進行最小二乘回歸分析。? ? ? ? ?從上圖我們可以看出,使用以“region”為聚類變量的聚類文件標準差進行最小二乘回歸分析的結果與普通最小二乘回歸分析得到的結果類似,只是sale變量系數的顯著性有所下降。
xtreg profit sale cost ,fe vce(cluster region) #本命令的含義是以profit為因變量以sale、cost為自變量,并以“region”為聚類變量的聚類文件標準差,進行固定效應回歸分析。? ? ? ? ?從圖中可以看到共有20組,每組5個,共有100個樣本參與了固定效應回歸分析。模型的F值是10.92,顯著性P值為0.0007,模型是非常顯著的。模型組內R方是0.3637(within=0.3637),說明單位內解釋的變化比例是36.37%。模型組間R方是0.6619(between=0.6619),說明單位間解釋的變化比例是66.19%。模型總體R方是0.3697(ovverall=0.6397)說明總的解釋變化比例是63.79%。模型的解釋能力還是可以接受的。觀察模型中各個變量系數的顯著性P值,可以發現是比較顯著的。此外,圖中最后一行,rho=0.97094045,說明復合擾動項的方差主要來自個體效應而不是時間效應的變動,這一點在后面的分析中也可以得到驗證。
xtreg profit sale cost ,fe #本命令的含義是以profit為因變量,以sale、cost為自變量進行固定效應回歸分析。? ? ? ? 本結果相對于使用以region為聚類變量的聚類穩健標準差進行固定效應回歸分析的結果在變量系數顯著性上有所提高。此外,在圖16.16的最下面一樣可以看到“(F test that all u_i=0 : F(19,78) Prob > F = 0.0000)”?顯著拒絕了所有各個樣本沒有自己的截距項的原假設,所以我們可以初步認為每個個體用于與眾不同的截距項,也就是說固定效應模型在一定程度上優于普通最小二乘回歸模型,這一點也在后續的深入分析中得到了驗證。
estimates store fe #本命令的含義是存儲固定效應回歸分析的估計結果。?
xi:xtreg profit sale cost i.region ,vce(cluster region) #本命令旨在通過構建最小二乘虛擬變量模型來分析固定效應模型是否優于最小二乘回歸分析。?? ? ? ? ?從上圖可以看出,大多數個體虛擬變量的顯著性P值都是小于0.05的,所以我們可以非常有把握的認為可以拒絕“所有個體的虛擬變量皆為0”的原假設,也就是說固定效應模型是由于普通最小二乘回歸模型的。
tab year ,gen(year) #本命令旨在創建年度變量的多個虛擬變量。?
xtreg profit sale cost year2-year5,fe vce(cluster region) #本命令旨在通過構建雙向固定效應模型來檢驗模型中是否應該包含時間效應? ? ? ? ?從上圖我們可以看出,全部year虛擬變量的顯著性P值都是遠大于0.05的,所以我們可以初步認為模型中不包含時間效應。值得說明的是,在構建雙向固定效應模型時并沒有把year1列入進去,這是因為year1被視為基期,也就是模型中的常數項。
test year2 year3 year4 year5 #本命令的含義是在上步回歸的基礎上,通過測試各虛擬變量的系數聯合顯著性來檢驗是否應該在模型中納入時間效應。? ? ? ? ?可以看你出,各變量系數的聯合顯著性是非常差的,接受了沒有時間效應的初步假設,所以我們進一步驗證了模型中不必包含時間效應的結論。
xtreg profit sale cost,re vce(cluster region) #本命令的含義是以profit為因變量,以sale、cost為自變量,并且以region為聚類變量的聚類穩健標準差,進行隨機效應回歸分析。? ? ? ? 可以看到,隨機效應回歸分析的結果與固定效應回歸分析的結果大同小異,只是部分變量的顯著性水平得到了進一步提高。
xttest0 #本命令的含義是在上部回歸的基礎上,進行假設檢驗來判斷隨機效應模型是否優于最小二乘回歸模型。? ? ? ? ?建設檢驗非常顯著的拒絕鏈不存在個體隨機效應的原假設,也就是說,隨機效應模型是在一定程度上優于普通最小二乘回歸分析模型的。
xtreg profit sale cost,mle #本命令的含義是profit為因變量,以sale、cost為自變量并使用最大似然估計方法,進行隨機效應回歸分析。?
? ? ? ? ?從上圖可以看出,使用最大似然估計方法的隨機效應回歸分析的結果與使用以“region”為聚類變量的聚類穩健標準差的隨機效應回歸分析的結果大同小異,只是部分變量的顯著性水平得到了進一步的提高。
xtreg profit sale cost,be #本命令的含義是以profit為因變量,以sale、cost為自變量并使用組間估計量,進行組間估計量回歸分析。? ? ? ? 可以看出,使用組間估計量進行回歸分析的結果比較固定效應模型、隨機效應模型在模型解釋能力以及變量的顯著性上都有所降低。?
案例延伸
延伸:關于模型的選擇問題
? ? ? ? 在前面的分析過程中,我們使用各種分析方法對本節涉及的案例進行了詳細具體的分析。讀者們看到眾多的分析方法時可能會有眼花繚亂的感覺,那么我們最終應該選擇哪種分析方法來構建模型呢?答案當然是具體問題具體分析,然而我們也有統計方法和統計經驗作為決策參考。例如,在本例中,已經證明了固定效應模型和隨機效應模型都要浩宇普通最小二乘回歸模型。而對于組間估計量模型來說,他通常用于數據質量不好的時候,而且會損失較多的信息,所以很多時候我們僅僅將其作為一種對照的估計方法。那么剩下的問題就是選擇固定效應模型還是隨機效應模型的問題。在前面的基礎下,操作命令如下。
xtreg profit sale cost ,re #本命令的含義是以profit為因變量,cost、sale為自變量進行隨機效應回歸分析 estimates store re #存儲隨機效應回歸分析的估計結果 hausman fe re,constant sigmanore #進行豪斯曼檢驗,并據此判斷應該選擇固定效應模型還是隨機效應模型。? ? ? ? 豪斯曼檢驗的原假設是使用隨機效應模型。上圖顯示的顯著性P值(Prob>chi2=0.0061)遠遠小于5%,所以我們應該拒絕初始假設,認為使用固定效應模型更為合理的。綜上所述,我們應該構建固定效應模型來描述變量之間的關系。
16.2長面板數據
? ? ? ? 長面板數據是面板數據的一種,其主要特征是時間維度比較大而橫截面維度相對較小的,或者說,同一期間內被觀測的期間較多而被觀測的個體數量少。長面板數據分析相對而言更加關注擾動項相關的具體形式,一般使用可行廣義最小二乘法進行估計。這又分為兩種情形:一是進解決組內自相關的可廣義最小二乘估計:李毅中是同時處理組內自相關與組間同期相關的可行廣義最小二乘估計。
? ? ? ? 案例(16.2)B公司是一家保險公司,各省市連鎖店2001-2010年的相關經營數據包括保費收入、賠償支出以及創造利潤等。試用多種長面板數據回歸分析方法深入研究保費收入、賠償支出對創造利潤的影響關系。
encoding shengshi,gen(region) #因為面板數據要求其中個體變量值必須為證書而且不允許有重復,所以我們需要對各個觀測樣本進行有序編號。本命令旨在將shengshi這一字符串變量轉化為數值型變量xtset region year #本命令的含義是對面板數據集行定義,其中橫截面為度變量為我們上步生成的regionxtdes #本命令旨在觀測數面板數據的結構,考察面板數據特征,為后續分析做好必要準備。xtsum #本命令旨在現數面板數據組內、組間以及整體的統計指標xttab income #本命令旨在顯示income變量組內、組間以及整體的分布頻率xttab costxttab profitxtline income #本命令旨在對每個個體顯示income變量的時間序列圖xtline costxtline profittab region,gen(region) #本命令旨在創建省市變量的多個虛擬變量reg profit income cost region2-region8 year ,vce(cluster region) #本命令的含義是一region為聚類變量的聚類穩健標準差,進行最小二乘回歸分析。estimates stor ols #本命令的含義是存儲最小二乘回歸分析的估計結果。? ? ? ? 上述命令的分析不再過多贅述。
xtpcse profit income cost region2-region8 year ,corr(ar1) #本命令的含義是在僅考慮存在組內自相關,并且各組的子回歸系數相同的情形下,以profit為因變量,以income、cost以及生成的各個地區虛擬變量為自變量,進行可行廣義最小二乘回歸分析。estimates store ar1? ? ? ? 上圖可以看出,在僅考慮存在組內自相關,并且各組的自回歸系數相同的情形下,進行可行廣義最小二乘回歸分析的結果與普通最小二乘回歸分析的結果是有一些區別的。
xtpcse profit income cost region2-region8 year,corr(psar1) #本命令的含義是在僅考慮存在組內自相關,并且哥組的自回歸系數不相同的情形下,進行可行廣義最小二乘回歸分析。estimates store psar1?????????可以看出在僅考慮存在組內自相關,并且哥組的自回歸系數不相同的情形下,進行可廣義最小二乘回歸分析的結果與前面各種回歸分析的結果是有一些區別的。
xtpcse profit income cost region2-region8 year,hetonly #本命令的含義是在不考慮存在自相關,僅考慮不同個體擾動項存在異方差的情形下,進行可行廣義最小二乘回歸分析estimates store hetonly #存儲上不可行廣義最小二乘回歸分析的估計結果? ? ? ? ?從上圖可以可出,在不考慮存在自相關,僅考慮不同個體擾動項存在異方差的情形下,進行廣義最小二乘回歸分析的結果與前面各種回歸分析結果是有一些區別的。
estimates table ols ar1 psar1 hetonly,b se #本命令的含義是展示將以上各種方法的系數估計值及標準差列表放到一起進行比較的結果? ? ? ? ? ? ? ?從上圖可以看出,hetonly方法的系數估計值和ols方法的系數估計值是完全一樣的,但是標準差不一樣。其他各種方法之間都存在著一定的差別。
xtgls profit income cost region2-region8 year ,panels(cor) cor(ar1) #本命令事在假定不同個體的擾動項相互獨立且有不同得方差,并且各組的自回歸系數相同的情形下,進行的可行廣義最小二乘回歸分析。 xtgls profit income cost region2-region8 year ,panels(cor) cor(psar1) #本命令事在假定不同個體的擾動項相互獨立且有不同得方差,并且各組的自回歸系數不相同的情形下,進行的可行廣義最小二乘回歸分析。? ? ? ? ?每次分析都與前面的各種分析有些區別。
案例延伸
延伸:進行隨即系數模型回歸分析
? ? ? ? 前面我們講述的種種面板數據回歸分析方法,最多允許每個個體擁有自己的截距項,從來沒有允許每個個體擁有子的回歸方程斜率。變系數的命令如下
xtrc profit income cost , betas? ? ? ? 本命令不僅每個個體擁有自己的截距項,還允許每個個體擁有自己的回歸方程斜率,旨在進行隨機系數模型回歸分析。
? ? ? ? 模型中對參數一致檢驗的顯著性P值為0.0000(Test of parameter constancy:chi2(21)=891.48 Prob > chi2 = 0.0000),顯著的拒絕鏈每個個體都具有相同系數的原假設,我們的變系數模型設置時非常合理的。
總結
以上是生活随笔為你收集整理的第16章Stata面板数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Predicting Impending
- 下一篇: linux多重引导工具,Linux多重引