《商务与经济统计》(三)
第十三章:實(shí)驗(yàn)設(shè)計(jì)與方差分析(AN0VA)
獨(dú)立變量/因子、處理、、總體、因變量/響應(yīng)變量、實(shí)驗(yàn)單元、完全隨機(jī)化設(shè)計(jì)。
1、應(yīng)用方差分析需要三個(gè)假定:① 對(duì)每個(gè)總體,響應(yīng)變量/因變量服從正態(tài)分布;
② 響應(yīng)變量的方差(),對(duì)所有總體都是相同的;③?觀測(cè)值必須是獨(dú)立的。
2、
3、對(duì)于一個(gè)完全隨機(jī)化實(shí)驗(yàn)設(shè)計(jì),如何應(yīng)用方差分析來(lái)檢驗(yàn)k個(gè)總體均值是否相等?
即:只要樣本容量全相等,總樣本均值=k個(gè)樣本均值的算術(shù)平均。
4、(注:若H0為真,則MSTR給出的是σ2的一個(gè)無(wú)偏估計(jì);若k個(gè)總體均值不等,MSTR將高估總體方差)
(注:MSE永遠(yuǎn)給出的是σ2的一個(gè)無(wú)偏估計(jì))
5、方差估計(jì)的比較:F檢驗(yàn)
若原假設(shè)H0為真,則MSTR和MSE均給出σ2的兩個(gè)獨(dú)立的無(wú)偏估計(jì)量。
(由11章,對(duì)于正態(tài)總體,σ2的兩個(gè)獨(dú)立估計(jì)量之比的抽樣分布服從F分布。)
因此,若原假設(shè)H0為真,并且ANOVA的假定滿足,則
MSTR/MSE的抽樣分布服從一個(gè)分子自由度為k-1,分母為nT-k的F分布。
但是,若H0不成立,MSTR是高估總體方差的,該比值將被夸大,因此可用來(lái)拒絕H0.
方差分析表(ANOVA table):方差分析可以看作將總平方和及其自由度分解成它們對(duì)應(yīng)來(lái)源(處理+誤差)的一個(gè)過(guò)程。
6、對(duì)于一個(gè)完全隨機(jī)化實(shí)驗(yàn),可以應(yīng)用方差分析來(lái)檢驗(yàn)k個(gè)總體均值是否相等的問(wèn)題;
同樣,對(duì)于觀測(cè)性研究得到的數(shù)據(jù),也可用ANOVA 來(lái)檢驗(yàn)三個(gè)或三個(gè)以上的總體均值是否相等的問(wèn)題。
7、多重比較方法:確定在k個(gè)均值中間到底那幾個(gè)均值之間存在差異。
①、LSD(Least—Significant ?Difference),最小顯著性差異法。
其實(shí), 通過(guò)判斷樣本均值之差的大小而決定是否拒絕H0更容易些,此時(shí):
Fisher的LSD方法也可用于建立兩個(gè)總體均值之差的置信區(qū)間估計(jì)。
②、? 比較方式的第Ⅰ類錯(cuò)誤:
實(shí)驗(yàn)方式的第Ⅰ類錯(cuò)誤:
8、隨機(jī)化區(qū)組設(shè)計(jì)(一個(gè)人隨機(jī)試驗(yàn)各種方案)
完全隨機(jī)化設(shè)計(jì)中,當(dāng)外部因素(實(shí)驗(yàn)中未考慮到)引起的差異使得分母MSE變大時(shí),F值將會(huì)變小,造成“處理均值之間不存在差異”的假象。“隨機(jī)化區(qū)組設(shè)計(jì)”的實(shí)驗(yàn)設(shè)計(jì)方法可消除MSE項(xiàng)中來(lái)自外部的變異,以達(dá)到控制變異外部來(lái)源的目的。
ANOVA方法:①、計(jì)算總平方和SST(自由度:). ? ? ?
? ? ? 式中,表示總樣本均值,表示在區(qū)組i(甲乙丙)中對(duì)應(yīng)于處理j(方案123)的觀測(cè)值。
②、計(jì)算處理平方和SSTR(自由度:k-1). ? ? ??,MSTR=SSTR/(k-1)
式中,b表示區(qū)組(甲乙丙)總數(shù),表示第j個(gè)處理(方案123)的樣本均值。
③、計(jì)算區(qū)組平方和SSBL(自由度:b-1). ? ? ? ?,MSBL=SSBL/(b-1)
式中,k表示處理(方案123)總數(shù),表示第i個(gè)區(qū)組(甲乙丙)的樣本均值。
④、計(jì)算誤差平方和SSE(自由度:(k-1)(b-1)). ? ? ? ? ?,MSE=SSE/(k-1)(b-1)
⑤、檢驗(yàn)統(tǒng)計(jì)量:F=MSTR/MSE, ? ? ? 自由度:k-1
p-值是對(duì)應(yīng)于F值的F分布上側(cè)曲線下方的面積。若p-值≤α,則拒絕原假設(shè)。
9、析因?qū)嶒?yàn)是一種實(shí)驗(yàn)設(shè)計(jì),能允許我們同時(shí)得到有關(guān)兩個(gè)或兩個(gè)以上因子(獨(dú)立變量)同時(shí)存在時(shí)的一些統(tǒng)計(jì)結(jié)論。
回答最開(kāi)始的案例,控制某些條件的影響下,檢驗(yàn)不同因子的影響程度。
交互作用:當(dāng)一個(gè)因子的水平與另一個(gè)因子的水平相互作用時(shí),對(duì)響應(yīng)變量產(chǎn)生的影響。
第十四章:簡(jiǎn)單線性回歸
1、簡(jiǎn)單線性回歸模型:y=β0+β1x+ε???? ε:誤差項(xiàng)(隨機(jī)變量) ? ??
簡(jiǎn)單線性回歸方程:E(y)=β0+β1x??? 平均值or期望/截距/斜率/回歸線(正/負(fù)/無(wú)線性關(guān)系)
估計(jì)的簡(jiǎn)單線性回歸方程:
:
2、最小二乘法:利用樣本數(shù)據(jù),通過(guò)使應(yīng)變量的觀測(cè)值與應(yīng)變量的預(yù)測(cè)值之間的離差平方和達(dá)到最小的方法,求得b0和b1的值。
3、判定系數(shù):為估計(jì)的回歸方程提供了一個(gè)擬合優(yōu)度的度量。 ? ? ? ? ??第i個(gè)殘差:
誤差平方和SSE:? ? ? ? ? ? ? ? ? ? ? ? 回歸平方和SSR:
總的平方和SST:? ? ? ? ? ? ? ? ? ? ? ? ??
判定系數(shù):?表示總平方和中有%能被估計(jì)的回歸方程所解釋。
4、有一個(gè)較大的值估計(jì)的回歸方程可以直接應(yīng)用,需要進(jìn)行變量之間關(guān)系的顯著性檢驗(yàn)。
回歸分析中的顯著性檢驗(yàn)以對(duì)誤差項(xiàng)的假定為依據(jù):
因?yàn)?#xff0c;在中,如果,則x和y不存在線性關(guān)系,因此,為了檢驗(yàn)兩變量之間是否存在一個(gè)顯著的回歸關(guān)系,我們必須進(jìn)行一個(gè)假設(shè)檢驗(yàn),用來(lái)判定是否為0.
通常使用的檢驗(yàn)方法有兩種:t檢驗(yàn)和F檢驗(yàn)。
而每一種方法都需要知道誤差項(xiàng)方差的估計(jì)值:
的方差也是應(yīng)變量y的值關(guān)于回歸直線的方差,因此誤差平方和SSE是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量。
,
方法一、t檢驗(yàn)
方法二、F檢驗(yàn)
在僅有一個(gè)自變量的情況下,F檢驗(yàn)得到與t檢驗(yàn)同樣的結(jié)論;但如果回歸方程有≥2個(gè)自變量時(shí),F檢驗(yàn)僅被用來(lái)檢驗(yàn)回歸方程總體的顯著關(guān)系。
注1:如果H0不成立,MSE仍是σ2的一個(gè)無(wú)偏估計(jì)量,但MSR高估σ2。
如果H0成立,MSE/MSR均為無(wú)偏估計(jì)量,此時(shí),MSR/MSE應(yīng)接近于1.
注2:我們只是拒絕了H0:β1=0,和證實(shí)了變量x和y之間存在統(tǒng)計(jì)顯著關(guān)系,但并不能做出x和y存在線性關(guān)系的結(jié)論。
5、區(qū)間估計(jì)(置信區(qū)間+預(yù)測(cè)區(qū)間)
①、y的平均值的置信區(qū)間
②、y的一個(gè)個(gè)別值的預(yù)測(cè)區(qū)間
6、殘差分析
①、關(guān)于x的殘差圖(X:自變量的值;Y:對(duì)應(yīng)的殘差值)
在對(duì)殘差圖進(jìn)行有效解釋之前,經(jīng)驗(yàn)和好的判斷永遠(yuǎn)是關(guān)鍵因素。
②、關(guān)于的殘差圖(X:應(yīng)變量的預(yù)測(cè)值;Y:對(duì)應(yīng)的殘差值)
殘差圖和x殘差圖的圖形模式相同。
對(duì)于多元回歸分析,因?yàn)橛幸粋€(gè)以上的自變量,所以關(guān)于的殘差圖有更廣泛的應(yīng)用。
③、標(biāo)準(zhǔn)化殘差
如果隨機(jī)誤差項(xiàng)服從正態(tài)分布標(biāo)準(zhǔn)化殘差的分布服從標(biāo)準(zhǔn)正態(tài)分布當(dāng)查看標(biāo)準(zhǔn)化殘差圖時(shí),大約有95%標(biāo)準(zhǔn)化殘差介于[-2,2]。
7、正態(tài)概率圖(確定誤差項(xiàng)是否服從正態(tài)分不到另一種方法)
①、從均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)概率分布中隨機(jī)抽取10個(gè)數(shù)值,并從小到大排序,過(guò)程反復(fù)進(jìn)行,每個(gè)位置得到的值是個(gè)隨機(jī)變量,分別被稱為一/二…階順序統(tǒng)計(jì)量。
②、統(tǒng)計(jì)已經(jīng)證明,來(lái)自標(biāo)準(zhǔn)正態(tài)概率分布的容量為10的樣本,一階順序統(tǒng)計(jì)量的期望值為-1.55,這個(gè)期望值被稱為正態(tài)分?jǐn)?shù)。(由n個(gè)觀測(cè)值組成的數(shù)據(jù)集,就有n個(gè)順序統(tǒng)計(jì)量和n個(gè)正態(tài)分?jǐn)?shù))
③、將n個(gè)標(biāo)準(zhǔn)化殘差也按從小打到順序排列好,與得到的n階順序統(tǒng)計(jì)量一一對(duì)應(yīng)。
繪制正態(tài)概率圖(X軸:正態(tài)分?jǐn)?shù);Y軸:對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差)
④、如果誤差項(xiàng)正態(tài)性的假定被滿足,那么最小標(biāo)準(zhǔn)化殘差應(yīng)接近最小正態(tài)分?jǐn)?shù)圖上的散點(diǎn),應(yīng)密集圍繞在45°直線附近。
8、殘差分析:異常值和有影響的觀測(cè)值
①、檢驗(yàn)異常值(a、畫(huà)出x和y一一對(duì)應(yīng)的散點(diǎn)圖;b、標(biāo)準(zhǔn)化殘差分析中絕對(duì)值很大的值<-2or>2)
②、檢測(cè)有影響的觀測(cè)值(a、畫(huà)出x和y一一對(duì)應(yīng)的散點(diǎn)圖;)
自變量是極端值的觀測(cè)值被稱為高杠桿率點(diǎn)。有影響的觀測(cè)值是由大的殘差和高杠桿率的交互作用而產(chǎn)生的,
檢測(cè)方法有:庫(kù)克D統(tǒng)計(jì)量。
第十五章:多元回歸
1、多元回歸模型:
多元回歸方程:
估計(jì)的多元回歸方程:,其中,b0、b1、…是相應(yīng)β的估計(jì)值。表示應(yīng)變量的預(yù)測(cè)值。
最小二乘法準(zhǔn)則:利用樣本數(shù)據(jù),通過(guò)使殘差的平方和達(dá)到最小的方法求得各個(gè)b值。
多元回歸中,計(jì)算回歸系數(shù)b0/b1…涉及矩陣代數(shù)運(yùn)算,十分復(fù)雜,一般借助軟件加以實(shí)現(xiàn)。
多元判定系數(shù):(應(yīng)變量y中的變異性能被估計(jì)的多元回歸方程解釋的百分比R2)
由于增加自變量將影響到應(yīng)變量中的變異性被估計(jì)的回歸方程解釋的百分比,為了避免這種影響,
修正多元判定系數(shù):(為負(fù)值時(shí),minitab會(huì)將其調(diào)整為0)
2、在多元回歸情形中,進(jìn)行t檢驗(yàn)和F檢驗(yàn)的目的是不同的。
①、F檢驗(yàn):用于確定在應(yīng)變量和所有自變量之間是否存在一個(gè)顯著的關(guān)系,是總體的顯著性檢驗(yàn);
②、t檢驗(yàn):在F檢驗(yàn)證明了模型總體的顯著性后,t檢驗(yàn)用來(lái)單獨(dú)確定單個(gè)自變量是否為一個(gè)顯著的自變量,是單個(gè)的顯著性檢驗(yàn)。
總的平方和SST:n-1個(gè)自由度; ?回歸平方和SSR:p個(gè)自由度(p指自變量的個(gè)數(shù)); ?誤差平方和SSE:n-p-1個(gè)自由度
估計(jì)的標(biāo)準(zhǔn)誤差s:
多重共線性:自變量之間的相關(guān)性(解決之道很復(fù)雜,待議)
3、估計(jì)和預(yù)測(cè)/殘差分析:思想同簡(jiǎn)單線性回歸,但要借助相關(guān)軟件計(jì)算。
4、分類自變量:例如性別、付款方式等。虛擬變量/指標(biāo)變量:定義為0和1的。
5、第i次觀測(cè)的標(biāo)準(zhǔn)化殘差:,式中表示第i次觀測(cè)的殘差的標(biāo)準(zhǔn)差,
s表示估計(jì)的標(biāo)準(zhǔn)誤差,hi表示第i次觀測(cè)的杠桿率。
一般來(lái)說(shuō),如果數(shù)據(jù)集中存在一個(gè)或以上的異常值,將導(dǎo)致估計(jì)的標(biāo)準(zhǔn)差s增加,增加,標(biāo)準(zhǔn)化殘差值減小;
最后的結(jié)果是,雖然一個(gè)殘差可能超乎尋常的大,但較大,有可能導(dǎo)致識(shí)別異常值的標(biāo)準(zhǔn)化殘差規(guī)則失效(<-2or>2時(shí)判斷為異常值)
解決方式,引入學(xué)生化刪除殘差。
①、刪除第i次觀測(cè)值,剩下的n-1次觀測(cè)值建立新的估計(jì)的回歸方程,得到的估計(jì)的標(biāo)準(zhǔn)誤差為s(i)【原來(lái)為s】
②、用s(i)代替原來(lái)的s,分別先后計(jì)算和。這樣得到的標(biāo)準(zhǔn)化殘差稱為學(xué)生化刪除殘差。
③、如果第i次觀測(cè)值為異常值,那么s(i)<s,所以相應(yīng)的學(xué)生化刪除殘差絕對(duì)值將>標(biāo)準(zhǔn)化殘差的絕對(duì)值。
6、有影響的觀測(cè)值。(識(shí)別方法:經(jīng)驗(yàn)法則+庫(kù)克距離測(cè)度)
經(jīng)驗(yàn)法則:
庫(kù)克距離測(cè)度:一般地,Di>1則視為有影響。
7、logistic回歸
總結(jié)
以上是生活随笔為你收集整理的《商务与经济统计》(三)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【转载】世界各地对BI的应用状况
- 下一篇: UVa 11636 Hello Worl