可汗学院统计学 task4
線性回歸:在已有數據集上通過構建一個線性的模型來擬合該數據集特征向量的各個分量之間的關系,對于需要預測結果的新數據,我們利用已經擬合好的線性模型來預測其結果。其表達形式為y = w’x+e,e為誤差服從均值為0的正態分布。
擬合方程使用得比較廣泛的有最小二乘法。
線性模型在二維空間中就是一條直線,在三維空間是一個平面。回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
最小二乘法:考慮函數 y=a+bx, 其中a 和 b是待定常數。 如果離散點完全的在一直線上,可以認為變量之間的關系為一元函數 。但一般說來,這些點不可能在同一直線上。但是它只能用直線來描述時, 計算值與實際值會產生偏差。當然要求偏差越小越好,但由于偏差可正可負, 因此不能認為總偏差 時, 擬合函數很好地反映了變量之間的關系,但是因為此時每個偏差的絕對值可能很大。 為了改進這一缺陷, 就考慮用平均值來代替 。但是由于絕對值不易作解析運算,因此,進一步用殘差平方和函數來度量總偏差。偏差的平方和最小可以保證每個偏差都不會很大。于是問題歸結為確定擬合函數中的常數和使殘差平方和函數最小。 通過這種方法確定系數的方法稱為最小二乘法。
卡方分布:
若n個相互獨立的隨機變量ξ?、ξ?、……、ξn ,均服從標準正態分布,則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布。
卡方分布是由正態分布構造而成的一個新的分布,當自由度很大時,分布近似為正態分布。
卡方分布的 期望E(χ2)=n,方差D(χ2)=2n
性質:
在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨著參數的增大,分布趨近于正態分布;卡方分布密度曲線下的面積都是1。
從均值與方差可以看出,隨著自由度的增大,卡方分布向正無窮方向延伸(因為均值越來越大),分布曲線也越來越低闊(因為方差越來越大)。
不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。
分布的方差為2倍的自由度。
方差分析:用于兩個及兩個以上樣本均數差別的顯著性檢驗。
方差分析的基本原理是認為不同處理組的均數間的差別基本來源有兩個:
(1) 實驗條件,即不同的處理造成的差異,稱為組間差異。用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
(2)隨機誤差,如測量誤差造成的差異或個體間的差異,稱為組內差異,用變量在各組的均值與該組內變量值之偏差平方和的總和表示, 記作SSw,組內自由度dfw。
總偏差平方和 SSt = SSb + SSw。
總結
以上是生活随笔為你收集整理的可汗学院统计学 task4的全部內容,希望文章能夠幫你解決所遇到的問題。