伍德里奇计量经济学导论之计算机操作题的R语言实现(多元回归:估计)
生活随笔
收集整理的這篇文章主要介紹了
伍德里奇计量经济学导论之计算机操作题的R语言实现(多元回归:估计)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
引言
不知不覺,研一生活已經過去一半了,看自己現在的狀態,不由得慚愧,時間管理不夠好,學習沒有跟上。盡量爭取多寫點博客,算做對自己的安慰。
本博文代碼和rmd文檔見下載
c3.1
##(1) #B2的符號最有可能為正,更高的家庭收入意味著母親孕育更好的營養以及孕期呵護。 ##(2) #一方面,家庭收入的增加會增加對食物的購買,包括香煙的支出;但另一方面,高收入通常意味著有良好的教育,受教育多者吸煙數量較少,兩者存在負相關。 ##(3) #讀入數據 data_bwght<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/bwght.csv') lm_bw<-lm(bwght~cigs+faminc,data=data_bwght)#包括faminc lm_bw_0<-lm(bwght~cigs,data=data_bwght)#不包括faminc summary(lm_bw)#r squared 0.0284 n=1388 #bwght=116.97-0.46341cigs+0.09276faminc summary(lm_bw_0)#r squared 0.02202 n=1388 #bwght=119.772-0.51377 cigs #從大小來看并沒有顯著改變cigs對bwght的估計,因為cigs與faminc存在較小的相關性,faminc前較小的系數也可以看出來。C3.2
data_hprice<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/hprice1.csv') lm_hprice<-lm(price~sqrft+bdrms,data=data_hprice)#讀入數據 summary(lm_hprice) #(1) #price=-19.325+0.12844sqrft+15.19819bdrms #(2) #住房保持面積不變時,增加一間臥室,價格平均會提高1.5萬美元 #(3) 0.12844*140+1*15.19819#3.3萬美元 遠遠大于2中的效果 #(4)r squared 為0.6233 價格變異的62.3%能由平方英尺和房間數解釋 #(5) 0.12844*2438+4*15.19819-19.325#預估計為35.5萬美元 #(6) 35.5-30#殘差為5.5 從實際價格與估計價格相比較來看,買家支付了較低的價格 但實際上價格有很多其他因素共同決定的,估計價格只能作為一種參考C3.3
data_ceosal2<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/ceosal2.csv') #(1) lm_ceosal2<-lm(log(salary)~log(sales)+log(mktval),data=data_ceosal2) summary(lm_ceosal2) #ln(salary)=4.62+0.16ln(sales)+0.11ln(mktval) #(2)由于profits存在負數,所以不能取對數 lm_ceosal2_1<-lm(log(salary)~log(sales)+log(mktval)+Profits,data=data_ceosal2) summary(lm_ceosal2_1)#調整的r squared為28.7% 不能解釋薪水變異的大部分 #(3) lm_ceosal2_2<-lm(log(salary)~log(sales)+log(mktval)+Profits+ceoten,data=data_ceosal2) summary(lm_ceosal2_2) #延長一年任期,薪水會增加1.2% #(4) cor.test(log(data_ceosal2$mktval),data_ceosal2$Profits)#樣本相關系數為0.7768976 由于樣本相關性檢驗拒絕原假設,即兩個變量之間存在一定的相關性C3.4
data_attend<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/attend.csv') #(1) new_data<-data_attend[,c(3,4,6)] summary(new_data) #(2) lm_attend<-lm(atndrte~priGPA+ACT,data=data_attend) summary(lm_attend) #atndrte=75.7+17.26priGPA-1.717ACT #當priGPA與ACT都為0時,上課參與率為75.7% 很明顯與實際意義不符 #(3) #當ACT保持不變的時候,priGPA每增加一個單位,學生參與率平均增加了17.26個百分點. #當priGPA保持不變時,而ACT分數每增加一分,學生參與率平均減少1.717個百分點 ,這個系數的結果令人吃驚,意味著5分ACT的課堂參與率會減少8.5.。由于ACT測量學生的潛力,ACT越高的人通常有更高的學習能力,能夠在課余時間將缺失的課給學回來。 #(4) 75.7+17.26*3.65-20*1.717#104.359 樣本中最大為100 沒有這樣的值。在實際中這個結果也是不可能的,這需要我們在實際的回歸對因變量設定一定的上界和下界,這里需要設定100的上界。 #(5) 17.26*(3.1-2.1)-1.717*(21-26) #出勤率相差25.845%C3.5
data_wage1<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/wage1.csv') lm_wage1<-lm(educ~exper+tenure,data=data_wage1) r1<-residuals(lm_wage1) lm_wage2<-lm(log(wage)~r1,data=data_wage1) lm_wage3<-lm(log(wage)~educ+exper+tenure,data=data_wage1)summary(lm_wage3)#0.092029 summary(lm_wage2)#0.09203 #兩者系數相等。因為在lm_wage2回歸中,log(wage)對r1的回歸只解釋了edu對log(wage)的影響,此時edu與exper tenure不相關。這與log(wage)對educ、exper、tenure回歸中解釋變量相同,說明兩者都可以解釋為在其他變量不變的情況。C3.6
data_wage2<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/wage2.csv') #(1) lm_wage2_1<-lm(IQ~educ,data=data_wage2) coefficients(lm_wage2_1)#斜率為3.533829 #(2) lm_wage2_2<-lm(log(wage)~educ,data=data_wage2) coefficients(lm_wage2_2)#斜率為0.05983921 #(3) lm_wage2_3<-lm(log(wage)~educ+IQ,data=data_wage2) coefficients(lm_wage2_3)#斜率分別為0.039119901 0.005863132 #(4) 證明# 0.039119901+0.005863132*3.533829#等于0.05983921C3.7
data_meap93<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/meap93.csv') #(1) lm_meap93<-lm(math10~log(expend)+lnchprg,data=data_meap93) summary(lm_meap93) #math10=-20.36081+6.22970log(expend)-0.30459lnchprg #Adjusted R-squared: 0.1759 n=408 #預期相一致 。花費較多的學生家庭生活水平較高,通常在教育支出方面較多,從而數學通過率較高。而參加午餐計劃的比例越高,說明貧困孩子比例高,通過數學的比例下降。 #(2) #截距為所有變量為0時因變量的預測值,此回歸方程中截距為負數,沒有實際意義。 #lnchprg為0,有實際意義,說明該學校貧困孩子為0 #log(expend)為0,意味著expend為1,這不合常理 #(3) lm_meap93_1<-lm(math10~log(expend),data=data_meap93) coefficients(lm_meap93_1)#11.16440 #這個斜率支出效應更大 #(4) cor(data_meap93$lexpend,data_meap93$lnchprg)#-0.1927041 #符號為負,與預期相同 #(5) #利用題C3.6(4)的等式就可以解釋C3.8
data_discrim<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/discrim.csv') #(1) mean(data_discrim$prpblck) sd(data_discrim$prpblck) mean(data_discrim$income) sd(data_discrim$income) #(2) lm_discrim<-lm(psoda~prpblck+income,data=data_discrim) summary(lm_discrim) #psoda=0.09404+0.1536prpblck+0.000001422income#不算大 #(3) lm_discrim_1<-lm(psoda~prpblck,data=data_discrim) summary(lm_discrim_1)#斜率為0.109686 歧視效應更小了 這是由于income與prpblck是負相關,且income于psoda的價格成正相關。 #(4)數據中的缺失值或者0值已用均值替代 lm_discrim_2<-lm(log(psoda)~prpblck+log(income),data=data_discrim) summary(lm_discrim_2) #提高2.4個百分點 #(5) lm_discrim_3<-lm(log(psoda)~prpblck+log(income)+prppov,data=data_discrim) summary(lm_discrim_3) #從 0.12199 下降到了0.07432 #(6) cor(data_discrim$income,data_discrim$prppov)#負相關 與預期相同 #(7) #毫無疑問,確實存在高度相關關系,但是我們仍然需要這個變量存在,要不然遺漏這個變量會導致歧視效應偏小。C3.9
data_charity<-read.csv('/home/wangjianlong/files/R/blog/economitrical/ch_3/charity.csv') #(1) lm_charity<-lm(gift~mailsyear+giftlast+propresp,data=data_charity) summary(lm_charity) #gift=-4.551519+ 2.166259 mailsyear+ 0.005927giftlast+ 15.358605 propresp #Adjusted R-squared: 0.08271 n=4268 lm_charity_1<-lm(gift~mailsyear,data=data_charity) #gift=2.0141+ 2.6495 mailsyear summary(lm_charity_1)#Adjusted R-squared: 0.01356 #多元回歸模型增加的變量增強了解釋能力 #(2) #當其他變量不變時,mial每增加一封,gift一年平均增加 2.166259個單位 #它比簡單回歸系數小 #(3) #當mail數量不變時,回復率每增加一個百分點,gift平均一年增加0.005927個單位 #(4) lm_charity_2<-lm(gift~mailsyear+giftlast+propresp+avggift,data=data_charity) summary(lm_charity_2)#mailsyear 減少到1.20117 cor(data_charity$mailsyear,data_charity$avggift)#由于mailsyear與avggift之間是正相關,且gift對avggift回歸的系數為正,所以mailsyear的估計效應與不包含avggift的回歸模型相比較小。 #(5) #由0.005927一個正的系數改變為負的-0.26086,系數符號變化 可能變量之間存在多重共線性。總結
以上是生活随笔為你收集整理的伍德里奇计量经济学导论之计算机操作题的R语言实现(多元回归:估计)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: extern关键字讲解
- 下一篇: vector的内存释放