统计学任务4打卡
線性回歸:
就是能夠用一個直線較為精確地描述數據之間的關系。這樣當出現新的數據的時候,就能夠預測出一個簡單的值。線性回歸中最常見的就是房價的問題。一直存在很多房屋面積和房價的數據,如下圖所示:
在這種情況下,就可以利用線性回歸構造出一條直線來近似地描述放假與房屋面積之間的關系,從而就可以根據房屋面積推測出房價。
2 線性回歸的函數模型
通過線性回歸構造出來的函數一般稱之為了線性回歸模型。線性回歸模型的函數一般寫作為:
3 線性回歸模型的代價函數
通過線性回歸算法,我們可能會得到很多的線性回歸模型,但是不同的模型對于數據的擬合或者是描述能力是不一樣的。我們的目的最終是需要找到一個能夠最精確地描述數據之間關系的線性回歸模型。這是就需要用到代價函數。代價函數就是用來描述線性回歸模型與正式數據之前的差異。如果完全沒有差異,則說明此線性回歸模型完全描述數據之前的關系。如果需要找到最佳擬合的線性回歸模型,就需要使得對應的代價函數最小,相關的公式描述如下:
Hypothesis,表示的就是線性回歸模型Cost Function,代價函數Goal,就是要求對應的代價函數最小4 線性回歸模型求解
假設在線性回歸模型中僅僅只存在一個函數,就是斜率參數。即theta-0是0。如果存在如下的數據:
圖中對應的3個點分別為(1,1),(2,2),(3,3)那么很明顯,最佳線性回歸模型就是h(x)=x。如果通過實驗證明呢?我們畫出在theta-1處于不同值的代價函數。
5 線性回歸模型的特點:
1,建模速度快,不需要很復雜的計算,在數據量大的情況下依然運行速度很快。
2,可以根據系數給出每個變量的理解和解釋。
3,對異常值很敏感。
卡方分布:
設 X1,X2,......Xn相互獨立, 都服從標準正態分布N(0,1), 則稱隨機變量χ2=X12+X22+......+Xn2所服從的分布為自由度為 n 的χ2分布.[1]?
卡方分布的 期望E(χ2)=n,方差D(χ2)=2n
卡方分布:若n個相互獨立的隨機變量ξ?、ξ?、……、ξn ,均服從標準正態分布N(0,1)(也稱獨立同分布于標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為 分布(chi-squaredistribution)。其中參數n稱為自由度(通俗講,樣本中獨立或能自由變化的自變量的個數,稱為自由度),正如正態分布中均值或方差不同就是另一個正態分布一樣,自由度不同就是另一個分布。記為 分布的均值為自由度 n,記為 E() = n;分布的方差為2倍的自由度(2n),記為 D() = 2n。
?
從分布圖可以看出:分布在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨著參數 n 的增大,分布趨近于正態分布;隨著自由度n的增大,分布向正無窮方向延伸(因為均值n越來越大),分布曲線也越來越低闊(因為方差2n越來越大)。
方差分析:
實驗中,我們要考察的指標為試驗指標,影響的條件成為因素。由于各種因素的影響,使得測試數據結果呈波動狀,包含不可控的隨機因素、人為調控的可控因素。
?
應用條件:
1、各樣本是相互獨立的隨機樣本
2、各樣本均來自正態分布總體
3、各樣本的總體方差相等,即具有方差齊性
?
單因素方差分析(one-way ANOVA)
試驗參數
假設因素A有s個水平A1,A2…..,As,每個水平下進行nj次獨立試驗,樣本總數n
?
?觀測變量總離差平方和?=?組間離差平方和?+?組內離差平方和,表述為:SST=SSA+SSE。
組內差異——測量誤差、個體差異
????????SSE(誤差平方和)各個水平下,樣本觀察值與樣本均值差異的平方和
??????? 組內自由度??dfe=n-s
組間差異——不同實驗條件處理
????????SSA(因素A的效應平方和)各個水平下樣本平均值與數據總平均差異的平方和
??????? 組間自由度??dfa=s-1
均方 = 離差平方和 / 自由度 ? SA=SSA/dfa?? SE=SSE/dfe
?
?
單因素方差分析基本步驟
1、提出原假設:H0——無差異;H1——有顯著差異
2、選擇檢驗統計量:方差分析采用的檢驗統計量是F統計量,即F值檢驗
| 拒絕H0 | F>F0.05(dfa,dfe) | 組間均方>>組內均方,來自不同正態總體 |
| 接受H0 | F<F0.05(dfa,dfe) | 組間均方<<組內均方,來自相同正態總體 |
3、計算檢驗統計量的觀測值和概率P值
4、給定顯著性水平,并作出決策
?
方差齊性檢驗 ? ? ?——對控制變量不同水平下各觀測變量總體方差是否相等進行檢驗
控制變量不同水平下觀測變量總體方差無顯著差異是方差分析的前提要求。
若不滿足,便不能認為各總體分布相同。
?
多重比較檢驗 ? ? ?——控制變量的不同水平對觀測變量的影響程度如何
實現對各個水平下觀測變量總體均值的逐對比較
?
?
多(雙)因素方差分析
?
單獨效應???——其他因素固定,某一因素不同水平之間均數的差別
交互效應 ??——某因素的單獨效應,隨另一因素水平而變化,且不能用隨機誤差解釋
試驗參數
??????? 假設因素A有r個水平(A1,A2…..,Ar),因素B有s個水平(B1,B2……,Bs),每個ABzuhe進行t次獨立試驗,樣本總數n
?
所有數據平均值μ,αi是水平Ai的效應,βj是水平Bj的效應,γij表示Ai與Bj的交互作用
同樣計算離差平方和SST=SSA+SSE+SSB+SSAB
SSE(誤差平方和)每個(ij)水平下測量值與均值差異的平方和
SSA、SSB(因素A\B的效應平方和)、SSAB(AB交互效應平方和)
?
例如雙因素方差分析的基本步驟
??????? 1、提出原假設:
| ? | 因素A(r) | 因素B(s) | AB交互作用(rs) |
| 無顯著差異 | H01 | H02 | H03 |
| 有顯著差異 | H11 | H12 | H13 |
?
??????? 2、F值檢驗
| 拒絕H01 | F0.05(dfa,dfe)<FA | 因素A不同存在顯著差異 |
| 拒絕H02 | F0.05(dfb,dfe)<FB | 因素B不同存在顯著差異 |
| 拒絕H03 | F0.05(dfab,dfe)<FAB | 因素A與B存在交互效應 |
轉載于:https://www.cnblogs.com/zhgmen/p/10672771.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
- 上一篇: eclipse自动补全
- 下一篇: python3.6.8下robot fr