统计学基础知识(一)
文章目錄
- 一、統計學基礎知識
- 1.總體和樣本
- 2.均值
- 3.方差和標準差
- 4.隨機變量
- 5.概率密度函數
- 二、二項分布
- 三、泊松分布
- 四、大數定理
- 五、正態分布
- 1.正態分布的一些含義
- 2.如何求解正態概率
一、統計學基礎知識
1.總體和樣本
統計學上的總體值得是準備對其進行測量、研究或分析的整個群體,可以是人、得分,也可以是糖果——關鍵在于總體指的是所有對象。一個統計樣本就是從總體中選取的一部分對象。通過選取樣本,使其恰當地代表總體,從而得到代表總體的一個子集。對于糖果公司曼帝糖果來說,一個口香糖球樣本就是所選取的一小部分糖球,而不是每一粒糖球。
2.均值
均值:平均數的一般度量。平均數是量度數據集中趨勢的一種方法。均值和平均數不就一回事嗎?為什么還說均值是平均數的一般度量?可能以前有人讓你計算過平均數。計算大量數據的平均數的一個方法是:將所有的數字加起來,然后除以數字個數。在統計學中,這樣算出來的值叫做均值。而且平均數不止一種。如果你得知了某個數據集的平均數同時也知道了該平均數的種類,那么你將更好地理解這個數據集的真實情況。平均數的種類有:算術平均數、調和平均數以及集合平均數等。
第一種就是上面提到的將所有的數字加起來,然后除以數字個數所得到的均值;第二種均值則是考慮了每個數字出現的頻數,頻數用f表示。
3.方差和標準差
方差:是量度數據分散性的一種方法,是數值與均值的距離的平方數的平均值。標準差:方差的平方根。在量度數據的分散性上,標準差比方差更加直觀,因為標準差能根據與均值的距離指出分散性,而方差是與均值根據距離的平方來指出數據的分散性。
4.隨機變量
隨機變量似乎也是變量的一種,它和傳統變量有什么區別嗎?傳統變量是可求解變量,例如x+3=7,我們可以求得變量x的值為4。而隨機變量雖然也可以取很多值,但這些變量無法求解,只能通過計算得出取某個值的概率。但要注意,隨機不是隨便,隨機變量只能從某個固定范圍內取值。隨機變量通常用大寫字母(如X)表示,這應該也是為了和可求解的傳統變量區分開。隨機變量與其說是一種變量,倒不如說它是一種函數,一種將隨機過程映射到實際數值的函數,一種將隨機過程量化的函數。假設我們需要量化一個隨機過程:比如明天是否下雨,該過程可量化為:
其中X就是一個隨機變量,它的取值是隨機的,因為我們不確定明天是否下雨,但它的值只能從0和1當中選一個。當然也可以用其他數值來表示下不下雨,比如100,21等,這取決于你的需要。隨機變量分為離散型隨機變量和連續型隨機變量,前者的取值是在整數范圍內,后者的取值是在實數范圍內。
5.概率密度函數
概率密度函數用于描述連續型隨機變量的概率分布。概率密度函數f(x)是這樣一種函數:通過它可以求出一個數據范圍內的某個連續變量的概率,它向我們指出該概率分布的形狀。如圖就是一個概率密度函數的圖形。
概率密度函數有以下性質:
二、二項分布
二項分布描述的是離散型的隨機變量。二項分布包括以下條件:
(1)你正在進行一系列獨立試驗。
(2)每一次試驗都存在失敗和成功的可能,每一次試驗成功概率相同。
(3)試驗次數有限。假如在我們要進行一系列獨立試驗,每一次試驗結果或成功或失敗,成功概率為p,失敗概率為q,且p+q=1。我們感興趣的是這一系列試驗中最終獲得成功的次數。用X表示“n次試驗中成功次數”,為了求得r次成功的概率,可用下列算式:
三、泊松分布
泊松分布描述的是離散型的隨機變量。泊松分布包括以下條件:
(1)單獨事件在給定區間內隨機、獨立地發生,給定區間可以是時間或空間,例如可以是一個星期,也可以是一英里。
(2)已知該區間內的事件平均發生次數(或者叫做發生率),且為有限數值。該事件平均發生次數通常用希臘字母表示。
四、大數定理
隨著樣本數的增加,樣本均值將近似于真正的期望值,或者說樣本均值將收斂于總體均值或隨機變量期望值。
五、正態分布
1.正態分布的一些含義
正態分布之所以被稱為正態,是因為它的形態看起來合乎理想。在現實生活中,遇到測量值之類的大量連續數據時,你“正常情況下”會期望看到這種形態。正態分布具有鐘形曲線,曲線對稱,中央部位的概率密度最大。越是偏離均值,概率密度越小。均值和中位數位于中央,具有最大概率密度。
2.如何求解正態概率
可以通過求解概率密度函數曲線下方的面積求出概率。如圖:
求解概率三部曲:
(1)確定分布與范圍:要確定分布的均值和方差以及需要求概率的那部分范圍。(2)使其標準化:將普通的正態分布轉化為標準正態分布。
(3)查找概率:一旦將正態分布轉化為標準正態分布就可以通過查找正態分布的概率表來獲取所求概率,因為概率表只給出了N(0,1)的概率。 當我們拿到一個確定的正態分布時,為便于求解概率需要將其標準化,通過下式可求出任何正態變量X的標準分:
當將X轉化為標準正態變量時,就可以對照概率表查找相應的概率了。如下圖所示:
參考資料:
《深入淺出統計學》
http://open.163.com/special/Khan/khstatistics.html 12-34集
總結
以上是生活随笔為你收集整理的统计学基础知识(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为机器学习占地13
- 下一篇: 深度学习之 FPN (Feature P