t检验(t test)
統計學在科學研究中占有很重要的地位,機器學習中的很多內容也都是以統計學作為基礎的,為了更好的理解一些看起來虛無縹緲的統計學概念,我也查閱了很多資料,但是大多數講的并不那么通俗易懂,直到看到了“馬同學高等數學”對概率統計的概念的描述,感覺非常通俗易懂。為了方便以后復習查看有關統計學的概念,將馬同學的講解的內容在這里弄成了一個統計學概念專題。
首先聲明,此篇的內容是來自"馬同學高等數學"微信公眾號的內容。
?
目錄
1、t檢驗的歷史
2、t檢驗的思路
2.1?戈斯特的分析:
3、t分布
參考文獻:? ?
1、t檢驗的歷史
阿瑟·健力士公司(Arthur Guinness Son Co.)是一家由阿瑟·健力士(Arthur Guinness)于1759年在愛爾蘭都柏林建立的一家釀酒公司:
? ?1951年11月10日,健力士酒廠的董事休·比佛爵士(Sir Hugh Beaver)在愛爾蘭韋克斯福德郡打獵時,因為沒打中金鸻,于是和同行們爭論哪種鳥飛得最快,彼此爭論不休。由于當時的參考資料并不足以回答這個問題,這促使比弗想出版一本記載世界之最的書,這就是后來的《吉尼斯世界紀錄大全》。
還有一個讓健力士公司在歷史留名的,就是他的員工威廉·希利·戈斯特(1876-1937):
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ?
在健力士公司,戈斯特提出了t檢驗以降低啤酒質量監控的成本,但健力士酒廠為了保護公司的商業機密和智慧財產,明文禁止員工發表文章。戈斯特并沒有因為這項規定而放棄他的學術研究發表,他在《生物統計期刊》以“學生”(The Student)為筆名,發表了關于t檢驗的文章,所以t檢驗又稱為“學生t檢驗”。直到1937年,戈斯特因心臟病去世之前,健力士酒廠一直不知道戈斯特從事統計研究工作,并以“學生”筆名發表研究成果。許多統計研究者要和戈斯特見面,都必須像間諜電影般地秘密安排見面地點和時間。現在位于都柏林的健力士專賣店中有一個戈斯特的紀念碑,上面寫著“化學家、統計學家威廉·希利·戈斯特,首席釀酒師,學生t檢驗”:
? ? ? ? ? ? ? ? ? ? ? ? ? ??
2、t檢驗的思路
啤酒,主要原料是大麥,啤酒廠肯定是希望盡力提高畝產。比如,健力士公司有下面兩塊麥田:
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
左邊的麥田采用傳統A工藝進行種植,平均每株大麥可以結100粒穗子。而右邊的麥田采用改進過的B工藝種植,健力士公司想知道“B工藝是否提高了產量”。為了節約成本、減小損耗,摳門的健力士公司從B工藝的麥田中采樣了5株大麥,樣本均值為120粒穗子。然后把難題拋給了戈斯特。似乎直觀看來產量提高了,畢竟均值增加了20%,可是戈斯特想得更多一些。
2.1?戈斯特的分析:
戈斯特提出一個假設檢驗:
-
假設:B工藝沒有提高產量,即AB下的麥穗都是同一個分布
-
檢驗:看看在此假設下,??發生的概率高不高
已知的數據是,A工藝下的單株麥穗的個數服從,標準差未知的正態分布:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
而B工藝下的麥田的樣本均值,樣本數為5株,早在學習概率論知識時我們就知道,不同的標準差對應的正態分布的圖像是不同的:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
標準差越大,說明數據越分散,那么曲線的跨度就越大,曲線顯得更加‘矮胖’;反之標準差越小,說明數據越集中,跨度越小,曲線顯得更加‘高瘦’。
X如果服從正態分布,這里,跨度不大,采樣5個點使其圖像如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
由此可見,的概率非常低,即AB下的麥穗是同一個分布的可能性不大,我們有很大把握可以認為B工藝真正提高了產量。
而如果X服從的是跨度更大的正態分布,采樣五個點使其的圖像如下(為了演示,正態分布的參數選的不是很嚴謹):
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
這樣的正態分布下,的概率并不低,即AB下的麥穗還是可能為同一個分布的,我們沒十足的把握認為B工藝提高了產量。因此,看起來不能單純依靠??,或許除以樣本標準差 s可以消除跨度的影響:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
因為A工藝的??我們不清楚,但是我們假設AB同分布,所以直接使用了樣本標準差?s。當然,樣本數?n?也會影響結果。比如說,在 n =1000?下,得到??,那么根據大數定理,我們不用算了,基本上可以認為“B工藝提高了產量”。
所以,戈斯特認為應該綜合考慮樣本均值??、樣本方差?s?和樣本數?n?,給出了一個統計量t值:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?
該統計量越大說明AB工藝導致的差別越大,越有可能說明“B工藝提高了產量”。
3、t分布
對于t值:,對應的概率密度函數,也就是t分布為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,也叫做自由度。而??為伽馬函數。
接近于正態分布(灰色曲線表示正態分布),下面是的t分布
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?
而t值,實際上對應的就是橫坐標的值,比如說t值等于4:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
t=4之后的曲線下面積其實就是P值:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
所以,我們知道t值之后,就可以根據??以及要求的P值,查出當前的t值是否會拒絕我們的假設。
?舉個例子,比如本文中的AB工藝下的數據為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
計算出來:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ?
服從?的t分布:? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ?
如果我們要求?5%?的顯著水平的話(下兩篇講解P值和置信區間),那么就可以拒絕“B工藝沒有提高產量”這個假設了,也就是說,B工藝使得產量提高了。? ? ? ? ? ? ? ? ? ?
參考文獻:? ?
如何理解t檢驗、t分布、t值? ? ??https://mp.weixin.qq.com/s/SX-Pv8R_0s7adkNxdP_uvw
總結
以上是生活随笔為你收集整理的t检验(t test)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows下安装you-get的简要
- 下一篇: XIO: fatal IO error