常犯的18个统计学错误, 避坑防雷指南!
來源:知乎
轉自:數據分析(ID : ecshujufenxi)
1 變量之間關系可以分為兩類
函數關系:反映了事務之間某種確定性關系;
相關關系:兩個變量之間存在某種依存關系,但二者并不是一一對應的;反映了事務間不完全確定關系。
2 為什么要對相關系數進行顯著性檢驗?
實際上完全沒有關系的變量,在利用樣本數據進行計算時也可能得到一個較大的相關系數值(尤其是時間序列數值)
當樣本數較少,相關系數就很大。當樣本量從100減少到40后,相關系數大概率會上升,但上升到多少,這個就不能保證了;取決于你的剔除數據原則,還有這組數據真的可能不存在相關性;
改變兩列數據的順序,不會對相關系數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關系數;我們計算的相關系數是線性相關系數,只能反映兩者是否具備線性關系。相關系數高是線性模型擬合程度高的前提;此外相關系數反映兩個變量之間的相關性,多個變量之間的相關性可以通過復相關系數來衡量;
3 增加變量個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小
4 多重共線性與統計假設檢驗傻傻分不清?
多重共線性與統計假設沒有直接關聯,但是對于解釋多元回歸的結果非常重要。相關系數反應兩個變量之間的相關性;回歸系數是假設其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關系數很大),就會導致解釋困難;比如y~x1+x2;x1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關系數分析,初步判定是否滿足前提---多重共線性。
5 時間序列數據會自發呈現完全共線性問題,所以我們用自回歸分析方法
6 什么樣的模型才是一個好模型?
在測試集表現與預測集相當,說明模型沒有過度擬合:在訓練集上表現完美,在測試集上一塌糊涂。
原因:模型過于剛性,“極盡歷史規律,考慮隨機誤差”;擬合精度不能作為衡量模型方法的標準。
一個好的模型:只描述規律性的東西(抓住事務的主要特征),存在隨機誤差是好事,在預測時,就有了“容錯空間”,預測誤差可能減小!
7 假設檢驗顯著性水平的兩種理解
顯著性水平:
通過小概率準則來理解,在假設檢驗時先確定一個小概率標準----顯著性水平;用表示;凡出現概率小于顯著性水平的事件稱小概率事件。
通過兩類錯誤理解:為拒絕域面積
8 中心極限定律與大數定理
大數定理---正態分布的“左磅”,隨著樣本數的增加,樣本的平均值可以估計總體平均值。
中心極限定理---正態分布的“右臂”具有穩定性,大數定理說明大量重復實驗的平均結果具有穩定解決了變量均值的收斂性問題中心極限定理說明隨機變量之和逐漸服從某一分布,解決了分布收斂性問題。
9 方差
方差能最大程度的反映原始數據信息。
反映了一組數據相對于平均數的波動程度,相比于,其平方項更放大了波動,且差的平方在數學公式推導上有大用。
10 使用最小二乘法條件
自變量之間不能存在完全共線性。
總體方程誤差項服從均值為0的正態分布(大數定理)。
誤差項的方差不受自變量影響且為固定值(同方差性)。
11 最大似然估計與最小二乘法區別
最小二乘法是基于幾何意義上距離最小。
最大似然估計是基于概率意義上出現的概率最大。
最小二乘法:對數據分布無要求。
最大似然估計:需要知道概率密度函數。
12 關于H0與H1
H0:原假設,零假設----零是相關系數為0,說明兩個變量無關系。
H1:備用假設。
如何設置原假設:
1)H0與H1是完備事件組,相互對立,有且只有一個成立。
2)在確立假設時,先確定備設H1,然后再確定H0,且保證“=”總在H0上。
3)原H0一般是需要反駁的,而H1是需要支持的4)假設檢驗只提供原假設不利證據。
即使“假設”設置嚴密,檢驗方法“精確”;假設檢驗始終是建立在一定概率基礎上的,所以我們常會犯兩類錯誤。
第一類:原H0是真,卻拒絕原假設;犯類錯誤。
第二類:原H0是假,卻不拒絕原假設;犯類錯誤。
通常只能犯兩種錯誤中的一種,且增加,減少。
通常,類錯誤是可控的,先設法降低第一類錯誤概率。
13?什么是雙尾檢驗,單尾檢驗?
1) 當H0采用等號,而H1采用不等號,雙尾檢驗。
2)當H0是有方向性的,單尾檢驗。
14 P值
當原假設為真時,比所得到的樣本觀察,結果更極端的結果會出現的概率。
如果P值很小,我們拒絕原假設的理由越充分。
P的意義不表示兩組差別大小,p反映兩組差別有無統計學意義。
顯著性檢驗只是統計結論,判斷差別還需要專業知識。
15 T檢驗與U檢驗
當樣本容量n夠大,樣本觀察值符合正態分布,可采用U檢驗。
當樣本容量n較小,若觀測值符合正態分布,可采用T型檢驗。
16 方差分析
主要用于兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析。
基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
總變異可以被分解為組間變異與組內變異。
組間變異:由于不同實驗處理而造成的各組之間的變異。
組內變異:組內各被適變量的差異范圍所呈現的變異。
17 直方圖:對數據進行整體描述,突出細節
箱線圖:對數據進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速了解數據的匯集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那么密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏)。
但是請注意:一個直方圖比1000個p值更重要,拿到數據先繪制散點圖、直方圖、箱線圖看看,再決定用什么描述!
18 箱線圖
對于分位數的理解:霜線圖看數據分布特征統計學中,把所有數值由小到大排列并分成四等份,處于三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!
第一四分位數:下四分位數;等于該樣本中所有數值由小到大排列后第25%的數字(所以下四分位數可以不是樣本中的數值,它是一個統計指標(就像平均數一樣,不一定是原數據中的一點)。
第二四分位數:中位數
第三四分位數:上四分位數
其中,下四分位數與上四分位數的距離叫四分位距!(IQR)
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關系數分析,初步判定是否滿足前提---多重共線性。
以上。
-?END -
對比Excel系列圖書累積銷量達15w冊,讓你輕松掌握數據分析技能,可以在全網搜索書名進行了解:總結
以上是生活随笔為你收集整理的常犯的18个统计学错误, 避坑防雷指南!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最后一字是接的成语
- 下一篇: 2022年Python数据分析的宝藏地带