伍德里奇计量经济学导论之计算机操作题的R语言实现(虚拟变量)
生活随笔
收集整理的這篇文章主要介紹了
伍德里奇计量经济学导论之计算机操作题的R语言实现(虚拟变量)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
引言
前幾章涉及的自變量都為定量變量,本章將討論定性變自變量。主要內容包括:
單個虛擬變量區(qū)分兩個組
g-1個虛擬變量來區(qū)分g個組
用虛擬變量來解釋序數(shù)變量
虛擬變量與定量變量的交互作用,并應用鄒至莊檢驗來檢驗各組是否存在顯著差異
線性概率模型(本文不涉及)
本章Rmd文本以及所有整理好當數(shù)據(jù)見這里
C7.1 虛擬變量回歸與聯(lián)合變量顯著檢驗
#(1) data_gpa1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa1.csv',header = T) lm_gpa1<-lm(colGPA~PC+hsGPA+ACT+mothcoll+fathcoll,data = data_gpa1) summary(lm_gpa1) #colGPA=1.255554+0.151854 PC+ 0.450220hsGPA+0.007724ACT+-0.003758 mothcoll+0.041800fathcoll #Adjusted R-squared: 0.1934 n=141 #當其他條件不變時,擁有PC的比不擁有PC的colGPA平均高出0.151854. #給定0.05的顯著性水平 PC的P值為0.011小于0.05,故PC是統(tǒng)計顯著的。 #(2) lm_gpa1_1<-lm(colGPA~PC+hsGPA+ACT,data = data_gpa1)#求約束方程的R squared summary(lm_gpa1_1)# R squared 為0.2194 ##F-value = ((0.2222-0.2194)/2)/((1-0.2222)/135)#0.2429931 ##p value 為 1-pf(0.2429931,2,135)#0.7846192 ##由于P值較大,可以說兩個變量聯(lián)合不顯著 #(3) lm_gpa1_2<-lm(colGPA~PC+hsGPA+ACT+mothcoll+fathcoll+I(hsGPA^2),data = data_gpa1) summary(lm_gpa1_2) ##沒必要進行擴展 ,一方面加入后一次項和二次項變得不顯著 ##另一方面,hsGPA呈現(xiàn)出U形變化,在hsGPA=2.68出現(xiàn)轉折,這不好解釋C7.2二次項變量以及交互虛擬變量設定
#(1) data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T) lm_wage2<-lm(log(wage)~educ+exper+tenure+married+black+south+urban,data =data_wage2) summary(lm_wage2) ##log(wage)=5.395497+0.065431educ+0.014043 exper+0.011747 tenure+0.199417married-0.188350black-0.090904south+0.183912urban ##Adjusted R-squared: 0.2469 n=935 ##在其他條件保持不變的情況下,平均來說,黑人比非黑人工資少18.8%. #(2) lm_wage2_1<-lm(log(wage)~educ+exper+tenure+married+black+south+urban+I(exper^2)+I(tenure^2),data =data_wage2) summary(lm_wage2_1)#R-squared 為0.255 #F值為 ((0.255-0.2526)/2)/((1- 0.255)/925)#1.489933 1-pf(1.489933,2,925)#p值為0.2259282 #即使給予20%的顯著性水平,由于P值大于20%,不拒絕原假設,所以它們不是聯(lián)合顯著的 #(3) lm_wage2_2<-lm(log(wage)~educ+exper+tenure+married+black+south+urban+black:educ,data =data_wage2) summary(lm_wage2_2) ##交互項表明同樣多增加一年的教育,平均來說,與黑人的教育回報比非黑人少2.3%. ##但由于P值較大,沒有理由拒絕原假設,故種族并不影響教育回報率。 #(4) ##我們選擇單身非黑人為基組 data_wage2$black<-as.factor(data_wage2$black)#black因子化 data_wage2$married<-as.factor(data_wage2$married)#married因子化 dmy<-dummyVars(~lwage+educ+exper+tenure+south+urban+black:married,data=data_wage2) data_wage2_1<-data.frame(predict(dmy,newdata=data_wage2)) #改名字 names(data_wage2_1)[7]<-'single_nonblack' names(data_wage2_1)[8]<-'single_black' names(data_wage2_1)[9]<-'married_nonblack' names(data_wage2_1)[10]<-'married_black' lm_wage2_3<-lm(lwage~educ+exper+tenure+south+urban+single_black+married_nonblack+married_black,data =data_wage2_1) summary(lm_wage2_3) ##lwage=5.403793+ 0.065475educ+0.014146exper+0.011663tenure-0.091989south+0.184350urban-0.240820single_black+0.188915married_nonblack+0.009448married_black ##已婚黑人與非已婚黑人相差 0.009448- 0.188915 #0.18 #工資回報相差18%C7.3 對數(shù)函數(shù)系數(shù)當精確解釋以及聯(lián)合變量檢驗
data_mlb1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/mlb1.csv',header = T) lm_mlb1<-lm(log(salary)~years+Gamesyr+bavg+hrunsyr+rbisyr+runsyr+fldperc+allstar+frstbase+scndbase+thrdbase+shrtstop+Catcher,data=data_mlb1) summary(lm_mlb1) ##Catcher的p值為0.054,給定0.06的顯著性水平,也能拒絕原假設 ##保持其他變量不變,平均來說,接球手比非接球手工資高 100*(exp(0.25)-1)#28.40254% ##平均高28%這個差異確實比較大 #(2) ##假設:h0:b9=b10=b11=b12=b13=0 lm_mlb1_1<-lm(log(salary)~years+Gamesyr+bavg+hrunsyr+rbisyr+runsyr+fldperc+allstar,data=data_mlb1)#受約束方程當R squared summary(lm_mlb1_1)#0.6445 ((0.6535-0.6445)/5)/((1-0.6535)/344)#1.787013 #P值為 1-pf(1.787013,5,344)#0.114809 ##給定5%當顯著性水平,不拒絕原假設,即各個位置當平均薪水沒有什么差別 #(3) #兩者給出的結論大致相同,因為題2中當給出當強度很弱C7.4 交互虛擬變量設定
data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T) #(1) #B3與B4可以確定,B3是負的,B4是正的 #一般我們會考慮運動員成績相比非運動員成績差點,B6是負的 #性別和學校畢業(yè)人數(shù)不好說 #(2) lm_gpa2<-lm(colgpa~hsize+I(hsize^2)+Hsperc+sat+female+athlete,data=data_gpa2) summary(lm_gpa2) ##colgpa=1.241-0.05685hsize-0.00467I(hsize^2)-0.0132Hsperc+0.00164sat+0.1549female+0.01693athlete #Adjusted R-squared: 0.2915 n=4137 ##在其他條件保持不變當情況下,運動員成績比非運動員成績高0.1693 ##由于p值較小,拒絕b6為0當假設,認為b6在統(tǒng)計上是顯著當。 #(2) lm_gpa2_1<-lm(colgpa~hsize+I(hsize^2)+Hsperc+female+athlete,data=data_gpa2) summary(lm_gpa2_1) #去掉sta以后,athlete系數(shù)當P值變得相當大,已經(jīng)沒有理由去拒絕原假設。 #原因是當我們不控制sat變量時,平均來講運動員實際分數(shù)比非運動員低。 #(3) data_gpa2$female<-as.factor(data_gpa2$female)#black因子化 data_gpa2$athlete<-as.factor(data_gpa2$athlete)#married因子化 dmy<-dummyVars(~colgpa+hsize+I(hsize^2)+Hsperc+sat+female:athlete,data=data_gpa2) data_gpa2_1<-data.frame(predict(dmy,newdata=data_gpa2)) head(data_gpa2_1) #改名字 names(data_gpa2_1)[6]<-'male_nonath' names(data_gpa2_1)[7]<-'female_nonath' names(data_gpa2_1)[8]<-'male_ath' names(data_gpa2_1)[9]<-'female_ath' ##我們選擇female_nonath作為基組 lm_gpa2_2<-lm(colgpa~hsize+I(hsize^2)+Hsperc+sat+male_nonath+male_ath+female_ath,data=data_gpa2_1) summary(lm_gpa2_2)# ##保持其他變量不變,女生運動員比非女生運動員當colgpa平均高0.01751 #(5) lm_gpa2_3<-lm(colgpa~hsize+I(hsize^2)+Hsperc+sat+female+athlete+female:sat,data=data_gpa2) summary(lm_gpa2_3) ##由于P值太大不能拒絕兩者交互的系數(shù)為0當原假設 ##且系數(shù)較小,即使加入作用也非常有限C7.5略
C7.6 鄒至莊檢驗兩個方程是否相等
data_sleep75<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/sleep75.csv',header = T) male_sleep75<-data_sleep75[which(data_sleep75[,'Male']==1),] female_sleep75<-data_sleep75[which(data_sleep75[,'Male']!=1),] ##男性估計 lm_sleep75_male<-lm(sleep~totwrk+educ+age+I(age^2)+yngkid,data = male_sleep75) summary(lm_sleep75_male) #sleep=3648.20826 -0.18212totwrk-13.05238educ+ 7.15659age-0.04477I(age^2)+ 60.38021yngkid ##女性估計 lm_sleep75_female<-lm(sleep~totwrk+educ+age+I(age^2)+yngkid,data = female_sleep75) summary(lm_sleep75_female) #sleep=4238.72933 -0.13995totwrk-10.20514educ-30.35657age- 0.36794I(age^2)-118.28256yngkid ##截距項與孩子個數(shù)對睡眠時間有較大影響 #(2) 題目不太理解,所以直接對第一題當方程進行了鄒至莊檢驗 library(gap)# x1<-data.frame(totwrk=male_sleep75$totwrk,educ=male_sleep75$educ,educ2=(male_sleep75$educ)^2,yngkid=male_sleep75$yngkid) x2<-data.frame(totwrk=female_sleep75$totwrk,educ=female_sleep75$educ,educ2=(female_sleep75$educ)^2,yngkid=female_sleep75$yngkid) chow.test(male_sleep75$sleep,as.matrix(x1),female_sleep75$sleep,as.matrix(x2))#鄒至莊檢驗 #由于P值為0.035小于5%當顯著性水平,故拒絕原假設,認為兩者睡眠方程不相等。 #(3) lm_sleep75<-lm(sleep~Male+totwrk+educ+age+I(age^2)+yngkid+Male*totwrk+Male*educ+Male*age+Male*I(age^2),data = data_sleep75)#未約束方程 summary(lm_sleep75)#R-squared: 0.1272 lm_sleep75_1<-lm(sleep~Male+totwrk+educ+age+I(age^2)+yngkid,data = data_sleep75)#約束方程 summary(lm_sleep75_1)#R-squared: 0.1228 ((0.1272-0.1228)/5)/((1-0.1272)/695)#F臨界值0.7007333 1-pf(0.7007333,5,695)#p值為0.6230248 #由于P值較大,所以不是聯(lián)合顯著的剩下的題目大同小異,這里不再贅述。
總結
以上是生活随笔為你收集整理的伍德里奇计量经济学导论之计算机操作题的R语言实现(虚拟变量)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JVM GC调优总结 -Xms -Xmx
- 下一篇: 二叉树前序、中序、后序遍历非递归写法的透