不得不学的统计学基础知识(二)
接上一期的分享,今天繼續學習統計學的相關知識,今天涉及到的五個知識點主要包括離散型概率分布、連續型概率分布、假設檢驗、假設檢驗的運用(一類錯誤與二類錯誤)以及相關、因果以及回歸關系。
一、離散型概率分布?
離散型隨機變量是所有取值能夠一一列舉出來,這樣的隨機變量稱為離散型隨機變量。例如擲骰子試驗,朝上的點數只能從1,2,3,4,5,6中取值。而關于離散型隨機變量的分布就是離散型概率分布,離散型概率分布主要包括三類,幾何分布;二項分布以及泊松分布。下表匯總了這三類離散型概率分布的部分計算公式。
1.?幾何分布
(1)定義
伯努利試驗是只有兩種可能結果的單次隨機試驗。伯努利試驗都可以表達為“是或否”的問題。例如,拋一次硬幣,是否正面向上?在n次伯努利試驗中,第k次試驗才得到第一次成功的概率分布稱為幾何分布。
(2)條件
進行一系列相互獨立試驗。
每一次試驗都存在成功和失敗的可能,且每次可能性都相同。
想得到的結果是,為了取得第一次成功所需要進行多少次試驗。
(3)表示
X~Geo(p)
?
(4)概率計算公式
第r次試驗取得成功的概率:P(X=r)=pqr?1
需要r次以上才能獲得第一個成功的概率:P(X>r)=qr
需要試驗r次或不到r次即可取得第一次成功的概率:P(X<=r)=1?qr
期望:E(X)=1/p
方差:Var(X)=q/p2
?
?
2.?二項式分布
(1)定義
如果試驗E是一個伯努利試驗,將E獨立重復地進行n次,則稱這一串重復的獨立試驗為n重伯努利試驗。二項分布是n重伯努利試驗成功次數的離散概率分布。
(2)條件
進行一系列獨立試驗。
每一次試驗都存在成功和失敗的可能,且每次成功概率相同。
試驗次數有限。
(3)與幾何分布的不同之處
幾何分布感興趣的是取得第一次成功所需要進行多少次試驗。
二項式分布感興趣的是獲得成功的次數。
(4)表示
X~B(n,p)
在n次試驗中,取得r次成功的概率為:
(5)計算公式
期望:E(X)=np
方差:Var(X)=npq
3.?泊松分布
(1)定義
泊松分布描述單位時間/面積內,隨機事件發生的次數,比如某一服務設施一定時間內到達的人數,一個月內機器損壞的次數等。
(2)條件
單獨時間在給定區間內隨機、獨立地發生,給定區間可以是時間或空間。
一直該區間內的時間平均發生的次數(或者叫做發生率),且為有限數值。該時間平均發生次數通常用希臘字母λ表示。
(3)表示
X~Po(λ)
給定區間內發生r次時間的概率是:
(4)計算公式
期望:E(X)=λ
方差:Var(X)=λ
?二、連續型概率分布?
隨機變量的取值是某一個區間中的任意一點,這樣的隨機變量稱為連續型隨機變量,比如公交車每15分鐘一班,某人在站臺等車的時間x就是一個連續型隨機變量。連續型隨機變量的概率分布叫做連續型概率分布。
?
1.??正態分布
正態分布是統計學中常見的一種分布,如學生考試成績的人數分布等,表現為兩邊對稱,是一種鐘形的概率分布。正態分布的概率密度函數為:
正態分布的期望是:
方差是:
μ=0且δ=1的正態分布,被稱為標準正態分布。它有對應的標準正態分布表,通過該表可以找到對應值累積的概率。
正態分布轉化為標準正態分布:正態分布X,均值是μ,標準差是δ,z定義為。
正態分布的重要應用,我們在前一期中提過的3δ原則。
正態分布來近似二項分布:當n足夠大的時候,正態分布對于離散型二項分布能夠很好地近似。
?
評價正態分布:
?
(1)圖形:建立直方圖或者枝干圖,看圖像的形狀是否類似正態曲線,即土墩形或者鐘形,并且兩端對稱。
?
(2)計算區間(μ-δ,μ+δ),(μ-2δ,μ+2δ),(μ-3δ,μ+3δ),看落在區間內的百分比是否近似于68%,95%,100%。(3δ原則)
?
(3)求IQR和標準差δ,計算IQR/δ,如果是正態分布,則IQR/δ≈1.3
?
(4)建立正態概率圖,如果近似正態分布,點會落在一條直線上。
?
1.??均勻分布
均勻分布是指連續型隨機變量所有可能出現值的出現概率都相同。其概率密度函數為:
均勻分布的期望為:
方差為:
均勻分布在自然情況下比較少見,而人工栽種的有一定株行距的植物群落即是均勻分布。這表明X落在 [a,b] 的子區間內的概率只與子區間長度有關,和子區間位置無關,因此X落在 [a,b] 的長度相等的子區間內的可能性是相等的,所謂的均勻指的就是這種等可能性。
?
1.??指數分布
指數分布通常用來表示隨機事件發生的時間間隔,如旅客進機場的時間間隔、電子產品的壽命分布等。
指數分布的特征:無記憶性。比如燈泡的使用壽命服從指數分布,無論它已經使用了多長時間,假設為s,只要還沒有損壞,它能再使用一段時間t的概率與一件新產品使用時間t的概率是一樣的。這個證明過程簡單表示:
P(s+t|s) = P(s+t,s)/P(s) = F(s+t)/F(s)=P(t)
?
指數分布的概率密度函數為:
指數分布的期望為:
方差為:
?三、苦苦分不清的假設檢驗?
假設檢驗包括t檢驗、z檢驗、F檢驗、卡方檢驗、方差齊性檢驗等,這么多的假設檢驗,好混亂啊,下面總結的資料幫助你理解這么多類型的假設檢驗。
?
?
(1)什么是假設檢驗
假設檢驗是指預先對總體參數的取值做出假定,然后用樣本數據來驗證,從而做出是接受還是拒絕的結論。
?
(2)假設檢驗的思考邏輯
基本思路是:問題是什么?證據是什么?判斷依據是什么?做出結論。
基本步驟:
1)、提出原假設和備擇假設
2)、確定適當的檢驗統計量
3)、規定顯著水平@,查出臨界值,確定拒絕域和接受域
4)、計算檢驗統計量的值,做出統計決策。
?
(3)假設檢驗的類型
其中假設檢驗的種類包括:T檢驗,Z檢驗,卡方檢驗,F檢驗,ANOVA (方差分析)等等。
1)方差分析
又稱“ 變異數分析”,是R.A.Fisher發明的,要求比較的資料服從正態分布,用于兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析可以用于兩樣本及以上樣本之間的比較。
方差分析主要用途:
①???均數差別的顯著性檢驗,
②???分離各有關因素并估計其對總變異的作用,
③???分析因素間的交互作用,
④???方差齊性檢驗。
2)T檢驗
T檢驗主要用于樣本含量較小(例如n<30),要求比較的資料服從正態分布,總體標準差σ未知的正態分布資料。t檢驗只能用于兩樣本均數及樣本均數與總體均數之間的比較。t檢驗可用于比較男女身高是否存在差別。
3)Z檢驗
Z檢驗是一般用于大樣本(即樣本容量大于30)平均值差異性檢驗的方法。它是用標準正態分布的理論來判斷差異發生的概率,從而比較兩個平均數>平均數的差異是否顯著。
?
4)F檢驗
F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。
從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候:
①???首先要判斷兩總體方差是否相同,即方差齊性。
②???若兩總體方差相等,則直接用t檢驗;
③???若不等,可采用t'檢驗或變量變換或秩和檢驗等方法。
其中要判斷兩總體方差是否相等,就可以用F檢驗。簡單的說就是檢驗兩個樣本的方差是否有顯著性差異,這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。
T檢驗與 F檢驗的差異:T檢驗用來檢測數據的準確度--系統誤差;F檢驗用來檢測數據的精密度偶然誤差。
?5)卡方檢驗
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越小;反之,二者偏差越大,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。其中卡方檢驗針對分類變量。
卡方檢驗就是檢驗兩個變量之間有沒有關系。以運營為例:卡方檢驗可以檢驗男性或者女性對線上買生鮮食品有沒有區別;不同城市級別的消費者對買SUV車有沒有什么區別;如果有顯著區別的話,我們會考慮把這些變量放到模型或者分析里去。
?
上面講了五種統計中的假設檢驗,說完之后,還是苦苦分不清,一張圖告訴你它們之間的區別和聯系。
?四、假設檢驗的運用(一類錯誤與二類錯誤)?
1.假設檢驗
(1)目標:判斷一個假設是否可信。
(2)假設檢驗:做出假設或斷言,對照證據進行檢驗。
(3)步驟:
1)確定要進行檢驗的假設。
2)選擇檢驗統計量。
3)確定用于做出決策的拒絕域。
4)求出檢驗統計量的p值。
5)查看樣本結果是否位于拒絕域內。
6)做出決策。
2.詳細過程
(1)確定假設
所需要檢驗的斷言被成為原假設。
與原假設對立的被成為備擇假設。
原假設與備擇假設不用覆蓋所有可能。
(2)選擇檢驗統計量
檢驗統計量:用于對假設進行檢驗的統計量,是與該檢驗關系最為密切的統計量。
(3)確定拒絕域
拒絕域:一組數值,給出反駁元假設的最極端證據。
為求拒絕域,先定顯著性水平,即所度量的一種愿望,希望在樣本結果不可能程度達到多大時,就拒絕原假設,一般選擇5%或1%。
檢驗分類:
單尾檢驗:檢驗的拒絕域在可能的數據集的一側。
雙尾檢驗:拒絕域一分為二位于數據集的兩側。
(4)求出p值
定義:某個小于或等于拒絕域方向上的一個樣本數值的概率。
為取得樣本中的各種結果或取得拒絕域方向上的某些更為極端的結果的概率。
(5)樣本結果位于拒絕域中嗎。
做出決策。
3.第一類錯誤與第二類錯誤
(1)即使證據很有力,也無法確定斷言是錯誤的。
?
(2)假設檢驗可能出現的錯誤有兩種:
第一類錯誤:錯誤地拒絕真實假設。
P(第一類錯誤)=α,其中α為假設的顯著性水平。
第二類錯誤:錯誤地接受假的原假設。
P(第二類錯誤)=β
計算過程:檢查是否擁有H1的特定數值,求檢驗拒絕域以外的數值范圍,假定H1為真,求得到這些數值的概率。
功效:在H0為假的情況下,拒絕H0的概率。
功效=1?β
4.錯誤概率的計算
(1)第一類錯誤概率:顯著水平
發生了第一類錯誤,則我們拒絕了原假設,即原假設的發生概率落于拒絕域內。
故而發生第一類錯誤的概率,等于原假設落于拒絕域內的概率,等于顯著水平alpha。
P(第一類錯誤) =alpha
(2)第二類錯誤概率
第二類錯誤概率,則原假設錯誤情況下,接受原假設的概率。
即備擇假設正確的情況下,接受原假設的條件概率。
PS:?要計算第二類錯誤概率,必須擁有備擇假設H_1的具體數值,否則無法計算。因為需要根據備擇假設構建新的置信區間。
計算步驟如下:
1)我們接受了原假設:根據原假設的置信區間,確定接受原假設時,檢驗統計量X所需要的取值范圍
2)備擇假設正確:根據備擇假設,得到新的概率分布
3)根據概率分布,得到X取值范圍的發生概率,即為第二類錯誤概率。
五、相關、回歸和因果關系?
相關表示兩個變量之間存在關聯,但并不是因果關系。回歸分析是根據相關關系的具體形態,選擇一個合適的數學模型,來近似表達變量間的平均變化關系?;貧w分析可是看做是相關關系的具體實現。
1.相關性
客觀現象的相關關系有不同得分類標準,兩個變量之間的關系可以用散點圖來表示,進而可以對兩個變量之間的關系作出判斷。
(1)相關的類型:
正相關:兩個變量同時增加(或減小)。
負相關:兩個變量變化的趨勢相反,一個變量增加而另一個變量減小。
不相關:兩個變量間沒有明顯的(線性)關系。
非線性關系:兩個變量有關聯,但是以散點圖呈現的相關關系不是直線形狀。?
(2)相關類型散點圖
(3)相關系數r的性質:
1)相關系數工用于測量相關性的強度,它的取值范圍是-1~1
2)如果不相關,點的分布就不會以直線模式上升或下降的值接近于0
3)如果是正相關,相關系數就是正數(0<r≤1):兩個變量一同增加。完全正相關(所有的點在散點圖中呈現一條上升的直線)的相關系數r=1。r的值接近1表明是強正相關,r的值接近0表明是弱正相關
4)如果是負相關,相關系數就是負數(-1≤r<0):一個變量上升,另一個變量下降。完全負相關(所有的點在散點圖中呈現一條下降的直線)的相關系數r=-1。r的值接近-1表明是強負相關,r的值接近0表明是弱負相關。
?? ?公式:
正相關是正數、負相關是負數、不相關趨近于零。
(4)相關的可能解釋
?? ?相關是偶然的。
?? ?兩個相關變量可能直接受到一些潛在因素的影響。
一個變量是另一個變量的原因。但是要注意,即便如此,它也許只是眾多原因中的一。
2.回歸
回歸分析是根據相關關系的具體形態,選擇一個合適的數學模型,來近似表達變量間的平均變化關系?;貧w分析可是看做是相關關系的具體實現。
(1)??一元線性回歸模型
一元線性回歸描述因變量如何依賴自變量和誤差項的方程稱為回歸模型。可以表示為:Y=β?+β?X+ε式中,β?,β?為模型的參數。
(2)最小二乘法
最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。
(3)回歸模型的擬合效果分析
使用估計的回歸方程之前,需要對模型進行檢驗:
1).結合經濟理論和經驗分析回歸系數的經濟含義是否合理;
2).分析估計的模型對數據的擬合效果如何;
3).對模型進行假設檢驗。
3.相關與回歸和區別和聯系
(1)回歸分析與相關分析的區別:
1)相關分析所研究的兩個變量是對等關系,回歸分析所研究的兩個變量不是對等關系,必須根據研究目的確定其中的自變量、因變量。
2)對于變量x與y來說,相關分析只能計算出一個反映兩個變量間相關密切程度的相關系數,計算中改變x和y的地位不影響相關系數的數值。回歸分析有時可以根據研究目的不同分別建立兩個不同的回歸方程。
3)相關分析對資料的要求是,兩個變量都是隨機的,也可以是一個變量是隨機的,另一個變量是非隨機的。而回歸分析對資料的要求是,自變量是可以控制的變量(給定的變量),因變量是隨機變量。
(2)回歸分析與相關分析的聯系:
1)相關分析是回歸分析的基礎和前提。假若對所研究的客觀現象不進行相關分析,直接作回歸分析,則這樣建立的回歸方程往往沒有實際意義。只有通過相關分析,確定客觀現象之間確實存在數量上的依存關系,而且其關系值又不確定的條件下,再進行回歸分析,在此基礎上建立回歸方程才有實際意義。
2)回歸分析是相關分析的深入和繼續。對所研究現象只作相關分析,僅說明現象之間具有密切的相關關系是不夠的,統計上研究現象之間具有相關關系的目的,就是要通過回歸分析,將具有依存關系的變量間的不確定的數量關系加以確定,然后由已知自變量值推算未知因變量的值,只有這樣,相關分析才具有實際意義。
4.因果關系
(1)建立因果關系的指導原則
?如果你懷疑某一特定的變量(被懷疑的原因)對其他變量產生了一些影響:
? 1)尋找對被懷疑變量產生影響的那些變量,此時我們并不關心其他因素變化與否。
? 2)在被懷疑變量存在或剔除后有不同變化的變量中,核實被懷疑的變量剔除與否對這些變量的影響是否相同。
? 3)尋找大量的被懷疑變量產生眾多影響的證據。
? 4)如果影響由其他潛在的原因引起(你懷疑之外的原因),確保在解釋了其他潛在的原因之后,影響依然存在。
? 5)如有可能,通過實驗研究測試被懷疑的原因。如果由于道德原因實驗不能夠模擬的話,考慮用動物、細胞培養物或計算機模型進行實驗。
6)試判斷由被懷疑變量產生影響的物理機制
?
(2)因果關系的置信水平
?? 1)可能的原因:我們已經討論了相關性,但是不能確定相關性之中是否蘊含著因果關系。在法律體系中,可能的原因(例如認為一個嫌疑人可能犯罪了)經常成為開始一項調查的原因。
?? 2)合理的根據:我們有足夠的理由去懷疑相關包含因果關系,可能是因為符合一些建立因果關系的原則。在法律體系中,合理的根據會成為法官批準逮捕令或合法竊聽的一般標準
?? 3)排除合理懷疑:我們已經找到合理解釋一件事情影響另一件事情的實體模型,懷疑這個因果關系是不合理的。在法律體系中,排除合理懷疑是定罪的一般標準,并且要在陳述中展示嫌疑人是如何以及為什么犯罪。排除合理懷疑并不意味著排除一切懷疑。
參考鏈接
[小野仙蹤]的《概率論與統計學:離散型和連續型隨機變量的概率分布》,https://zhuanlan.zhihu.com/p/38224194。
[想吃麻辣燙啦]關于《關于假設檢驗,T檢驗 F檢驗 卡方檢驗 和 ANOVA 這些檢驗在什么情況下使用,它們的區別是什么?》的回答,https://www.zhihu.com/question/309884517/answer/579315142
[鄭大哲]關于《關于假設檢驗,T檢驗 F檢驗卡方檢驗 和 ANOVA 這些檢驗在什么情況下使用,它們的區別是什么?》的回答,https://www.zhihu.com/question/309884517
[Life·Intelligence]的《第一類錯誤和第二類錯誤》中的圖片https://www.cnblogs.com/leezx/p/9226078.html
CSDN博主「ChenVast」的原創文章《【統計學】相關性和因果關系》,遵循 CC 4.0 BY-SA 版權協議, https://blog.csdn.net/ChenVast/article/details/83272268
簡書[TooJo]的原創文章《相關與回歸分析》,https://www.jianshu.com/p/da6517ea81bf
百度知道[柒月黑瞳]的《簡述相關與回歸的區別和聯系》,https://zhidao.baidu.com/question/1606024674828812667.html。
CSDN博主「ChenVast」的原創文章《【統計學】相關性和因果關系》,遵循 CC 4.0 BY-SA 版權協議, https://blog.csdn.net/ChenVast/article/details/83272268。
NOW現在行動!關注我們!
總結
以上是生活随笔為你收集整理的不得不学的统计学基础知识(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux我如何查看一个脚本的路径,li
- 下一篇: 进程控制块包含的信息