做统计分析课程设计时回忆的一些知识
真的全忘了。。。
泊松、指數、伽馬分布
- 泊松分布: 已知某事件單位時間的平均發生率 λ λ ,能給出單位時間內實際上發生X次的概率。可以證明二項分布取極限(試無數次)就是泊松分布,也就是說二項分布是泊松分布在離散的時間上的對應。
- 指數分布: 泊松過程中,第k次隨機事件與第k+1次隨機事件出現的時間間隔t服從指數分布,即 t~Expotional(λ) t ~ E x p o t i o n a l ( λ ) 。可以發現指數分布的累積分布函數(注意不是概率密度函數): 1?e?λt 1 ? e ? λ t 中的 e?λt e ? λ t 就是泊松分布中t個時間內不發生事件的概率。
這個累積分布函數只是說出現,而不管出現幾次,其實和直接用二項分布計算(1減去每次都不出現的概率)基本上相同,只是一個用概率的乘方,一個用 e e 來表示。比如說計算0.01概率出5星的抽卡,可以用下面的兩種式子計算,而得到的函數曲線基本上是重合的。因為通過泊松分布的證明過程,可以把組合數、概率乘方變成用指數表示。(這個圖可見fgo抽卡是多么難出貨,要理性氪金啊!)
- 伽馬分布:X~Γ(α,β)X~Γ(α,β) 說的是事件平均概率 1β 1 β 的時候等到第 α α 個事件發生的時間X符合伽馬分布
以上就是它們之間的關系。提這個是因為指數分布、卡方分布都是伽馬分布的特例。指數分布只能表示發生事件,不能算等到發生了第k個事件的概率。后者可以用二項分布計算(也是組合數乘以概率),之后轉化成用伽馬分布表示。
顯著性檢驗
Z檢驗
有一個來自正態分布總體的樣本 Xi… X i … ,已知(指定)總體的 σ2 σ 2 ,想知道總體均值 μ μ 和給的 μ0 μ 0 有沒有顯著差異。于是零假設是 μ=μ0 μ = μ 0 ,用統計量 Z=μ?μ0σn√ Z = μ ? μ 0 σ n 在正態分布里找拒絕域。
t檢驗
單樣本的
有一個來自正態分布總體的樣本 Xi… X i … ,不知道總體的 σ2 σ 2 和 μ0 μ 0 ,想知道總體均值 μ μ 和給的 μ0 μ 0 有沒有顯著差異。于是零假設是 μ=μ0 μ = μ 0 ,用樣本標準差 S2 S 2 代替 σ2 σ 2 ,用統計量 t=μ?μ0Sn√~t(n?1) t = μ ? μ 0 S n ~ t ( n ? 1 ) 在學生分布(t分布)里找拒絕域。
因為是用樣本估計了總體的標準差,所以不能用正態分布了。學生分布當時被發明出來就是為了解決這個問題的,它的概率密度函數 f(t) f ( t ) 里面有一個自由度( n?1 n ? 1 )的參數。
雙樣本的、配對的等等
統計量算的方式有差別。
Minitab幫助
維基
F檢驗
又叫聯合假設檢驗、方差齊性檢驗。t檢驗要求兩個總體方差相等的時候就要先檢驗方差齊性。
有兩個正態樣本,想檢驗兩個總體的方差是否有顯著差異。構造統計量 F=U1/d1U2/d2 F = U 1 / d 1 U 2 / d 2 , U1 U 1 和 U2 U 2 呈卡方分布,它們的自由度分別是 d1 d 1 和 d2 d 2 。
卡方分布
符合標準正態分布的隨機變量的平方和服從自由度為 k 的卡方分布。比如有一個來自正態分布總體的樣本 Xi… X i … ,不知道總體的 σ2 σ 2 和 μ0 μ 0 ,想知道總體方差 σ2 σ 2 和給的 σ20 σ 0 2 有沒有顯著差異。樣本的標準差 S S 是總體標準差的無偏估計,再除以σ20σ02就正好湊出來一個標準正態分布。統計量 (n?1)S2σ20~χ(n?1) ( n ? 1 ) S 2 σ 0 2 ~ χ ( n ? 1 ) ,在卡方分布函數里找拒絕域。
線性回歸中的顯著性檢驗
檢驗一個回歸系數
用t檢驗,零假設為回歸系數 β β 是0,。從最小二乘求出回歸系數的方法可知,回歸系數的標準差 Sβ=σΣ(xi?xˉ)2√ S β = σ Σ ( x i ? x ˉ ) 2 ,但總體 y y 的標準差σσ不知道,所以用樣本的 Sy S y 代替。計算統計量 t=βSβ~t(n?2) t = β S β ~ t ( n ? 2 ) 。
檢驗所有的回歸系數
用f檢驗,零假設為所有的回歸系數都是0。為了驗證這一點,使用了三個平方和(間接表現出零假設的影響):
- SSM/SSR (Sum of Squares for Model/Regression)
- SSE (Sum of Squares for Error)
- SST (Sum of Squares Total)
關系:SST(樣本值和樣本平均值之差的平方和)=SSM(預測值和平均值之差的平方和)+ SSE(預測值和樣本值之差的平方和)。順便一提,判定系數 r2=SSMSST r 2 = S S M S S T 。
把SSM和SSE都除以 σ2 σ 2 就能構造兩個符合卡方分布的變量,相除之后消去不知道的方差。
最終得到統計量 F=SSM/pSSE/n?p?1~F(p,n?p?1) F = S S M / p S S E / n ? p ? 1 ~ F ( p , n ? p ? 1 ) ,在F分布函數里找拒絕域。
ANOVA
主要的零假設就是幾個樣本的均值相等,即沒有顯著性差異。為了驗證這一點,用的基本就是上面顯著性檢驗的方法。
在檢驗兩組之間的差異的時候,就可以用t檢驗;而在多組的時候,雖然可以兩兩做t檢驗,但是不能替代原有的假設,所以用F檢驗。F檢驗時也是用組間之差的平方和比上組內之差的平方和。跟回歸系數檢驗里面的F檢驗一個道理。
總之就是沒有特別的方法,就是上面方法的綜合運用。
總結
以上是生活随笔為你收集整理的做统计分析课程设计时回忆的一些知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【k8s】debug iptable 并
- 下一篇: 亚声速 – 超声速等熵喷管流动 数值模拟