2×3卡方检验prism_卡方独立性检验原理
這篇文章主要講了兩個部分,一個是卡方檢驗的推導,一個是卡方檢驗應該取多少樣本量。
卡方獨立性檢驗是為了檢驗兩個變量是否獨立,我們先來回顧一下卡方獨立性檢驗的流程:
1、統計列聯表,計算觀察值:
表一圖中的數字都是頻數,例如男士分期的頻數為80,女士分期的頻數是20。圖中的頻數90,110,30,70這些是我們的觀察值,為別用
表示。2、做出假設,計算期望值:
我們的假設是性別跟是否分期是獨立的,所以我們的期望值應該是如下圖所示:
圖中的期望值80,120,40,80我們用
表示。3、計算卡方統計量
卡方統計量
,服從自由度為1的卡方分布。經過查表,我們可以算出p值為0.012,在0.05的閾值下,我們認為觀察到的情況是(表一)小概率時間,所以拒絕了性別跟是否分期是獨立的的原假設。
接下來,我們來推導出卡方統計量為什么是這個樣子的:
,其中 是觀察值, 是期望值(即變量獨立的假設下的期望值)我們先來了解幾個必要的知識點:
定義1、卡方分布的定義(抄自維基百科):
若k個隨機變量
是相互獨立,符合標準正態分布的隨機變量(數學期望為0、方差為1),則隨機變量 的平方和 ,被稱為服從自由度為 的卡方分布,記作 。這個定義中的關鍵之處在于隨機變量
是標準正態分布且是相互獨立的。定理2、若變量A、B的分布都是正態分布,那么‘變量A、B相互獨立’與‘A、B的協方差為0‘是等價命題。也就是說A、B獨立則A、B的相關性為0。A、B的相關性為0則A、B獨立。
定理3、設隨機向量
的協方差矩陣為C,必存在矩陣A,使得 ,且 的協方差矩陣為單位矩陣。下面我們來猜想到底這個列聯表的卡方統計量的公式是怎么得來的。
現在我們設有變量A、B.
A有m種互斥的可能取值,分別記為
,每種取值的概率分別為B有n種互斥的可能取值,分別記為
。每種取值的概率分別為我們做卡方檢驗,原假設時A、B是獨立的。在這個假設下,有:
顯然N次抽樣的情況下
被抽到的次數呈二項分布,均值為 ,方差為 。結合中心極限定律可知,當N很大時
被抽到的次數呈正態分布,均值為 ,方差為 。現在我們已經有了m*n個分布呈正態分布的變量(A,B),已經滿足卡方統計量中正態分布的要求,但是還差一個獨立性。所以很自然想到如果用定理3去除這些變量的相關性,然后再計算卡方統計量豈不是搞定了。
事實上,確實是這樣的,下面我們就來驗證這個想法。
為了書寫簡便我們將這m*m種可能性重排,對應關系為
,對應的概率 。這
個變量有如下關系 ,所以應該先任意丟棄一個變量再來計算協方差矩陣。
記
,記Z的協方差矩陣為C,第i行第j列元素記為
,表示 的協方差,顯然:
根據定理3,我們一定找得出矩陣B,使得
的協方差矩陣為單位矩陣,所以
的每個元素均的分布均為正態分布,且兩兩間相互獨立。所以我們推論的卡方統計量為:
真正的卡方統計量為:
欲證
,只需
只需
( 是單位矩陣)又因為
所以
顯然(^^)
所以證得
總結一下,卡方獨立性檢驗的公式由來就是:
在A、B變量獨立的原假設下,將列聯表中的變量(正態分布)用線性變換去除相關性(等同于獨立,見定理2),然后再求得卡方統計量。
下面我們來看看卡方獨立性檢驗時應該取多少樣本量
在做項目的時候,我們有幾百萬的樣本,如果用全部的樣本去做卡方檢驗的話,會出現這種情況:
除了隨機屬性,90%以上的屬性與標簽(二分類)的卡方檢驗都是顯著的。這樣的話對于屬性和標簽的卡方檢驗還有什么意義?
其實這里涉及到卡方檢驗的靈敏度問題,樣本量越大卡方檢驗越靈敏。
我們看看卡方統計量中的一項
。假設 偏離期望值的量的比例為 ,即所以 。在
不變的情況下樣本量越大導致 越大,導致卡方統計量 越大,導致p值越小。所以就得出了我們的結論:樣本量越大,卡方檢驗越靈敏。
回到我們的例子,如果用幾百萬的數據去做卡方檢驗的話,卡方檢驗就十分靈敏,兩個變量稍微的相關都能檢查出來,但這樣檢查出來的變量是我們想要的嗎?
顯然不是,因為加入變量是有成本的:
1、計算成本
2、過擬合風險
3、由于共線性導致的變量失效
所以不是所有相關的變量我們都要列入模型中,而是對模型貢獻大的變量要列入模型中。
所以我們要的是容易檢查出相關性的變量。
要實現這個目的就要讓卡方檢驗不那么靈敏,即減少卡方檢驗的樣本量。
所以是這么個邏輯:
這些變量連不靈敏的卡方檢驗都檢測出顯著,所以這些變量跟標簽肯定很不獨立,這就是我想要的變量。
總結一下,對于用于篩選特征的卡方檢驗,不是樣本量越多越好。有時候,為了得到不那么靈敏的卡方檢驗,我們減少了樣本量。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的2×3卡方检验prism_卡方独立性检验原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: latex 1图加标题_使用VsCode
- 下一篇: 房贷选择30年好还是15年好?银行行长说