【数据挖掘知识点六】假设检验
假設檢驗
假設檢驗,事先對總體的參數或總體分布形式作出一個假設,然后利用抽取的樣本信息去判斷這個假設(原假設)是否合理,即判斷總體的真實情況與原假設是否存在顯著的系統性差異,故此也稱為顯著性檢驗。一個完整的假設檢驗過程,包括以下幾個步驟:
1)提出假設;
2)構造適當的檢驗統計量,并根據樣本計算統計量的具體數值;
3)規定顯著性水平,建立檢驗規則;
4)作出判斷。
各步驟的內容如下:
1、原假設和備擇假設
首先對總體參數或分布形式提出假設,提出的假設有兩個:一個稱為原假設或零假設,另一個稱為備擇假設或對立假設。原假設一般用H0表示,通常設定總體參數等于某值,或服從某個分布函數等;備擇假設是與原假設互相排斥的假設,原假設與備擇假設不可能同時成立。假設檢驗問題,實質上就是判斷H0是否正確,若決絕原假設H0,則意味著接受備擇假設H1。
2、檢驗統計量
在給出假設的基礎上,可構造檢驗統計量。檢驗統計量,是根據所抽取的樣本計算的用于檢驗原假設是否成立的隨機變量。檢驗統計量中應當含有所要檢驗的總體參數,以便在“總體參數等于某數值”的假定下研究樣本統計量的觀測結果。檢驗統計量還應該在“H0成立”的前提下有已知的分布,從而便于計算出某種特定的觀測結果的概率。
3、顯著性水平
樣本統計量的觀測值計算出來之后,利用概率論中的“小概率原理”對原假設是否成立做出判斷。
在假設檢驗中,判斷所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬于小概率事件,那么可以認為原假設不可信,從而否定它,轉而接受備擇假設。
小概率的標準,即顯著性水平,用α表示,通常取α=0.01或0.05,一般來說,發生棄真錯誤可能造成的損失越大,取值應當越小。
對假設檢驗問題作出判斷可以依據兩種規則:P值規則和臨界值規則。P值規則,是檢驗統計量超過(大于或小于)具體樣本觀測值的概率,如P值小于所給定的顯著性水平,則認為原假設不太可能成立;如果P值大于所給定的標準,則認為沒有充分的證據否定原假設。臨界值規則,根據所提出的顯著性水平標準(概率密度曲線的尾部面積)查表得到相應的檢驗統計量的數值(臨界值),與檢驗統計量的觀測值比較,觀測值落在臨界值所劃定的尾部(稱之為拒絕域)內便拒絕原假設;觀測值落在臨界值所劃定的尾部之外(稱之為不能拒絕域)的范圍內,則認為拒絕原假設的證據不足。P值規則和臨界值規則二者是等價的。
4、假設檢驗的兩類錯誤
由于樣本具有隨機性,因此根據樣本推斷總體有可能出現兩種錯誤:1)棄真錯誤,原假設事實上正確,但檢驗統計量的觀測值卻落入拒絕域,而否定了本來正確的假設;2)取偽錯誤,原假設事實上不正確,而檢驗統計量的觀測值卻落入了不能拒絕域,因而沒有否定本來不正確的原假設。
方差分析是假設檢驗中的特殊情況,主要是解決多個方差相等的正態總體均值是否相等的檢驗問題,針對影響因素是否單一,分為單因子方差分析和雙因子方差分析,所構造的檢驗統計量也有所差別。
總結
以上是生活随笔為你收集整理的【数据挖掘知识点六】假设检验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘知识点五】层次聚类方法的理解
- 下一篇: 【数据挖掘知识点七】相关与回归分析