统计学基础知识有哪些?看这一篇就够了
1
什么是數據描述統計分析
(Descriptive Analysis)
簡單而言,描述性統計分析是用幾個關鍵的數字來描述數據集的整體情況<集中性和離散型(波動性大小)>。
描述數據集常用4個指標:平均值 四分位數 標準差 標準分,利用這些指標可以進行數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布、以及一些基本的統計圖形。
通常我們拿到一份數據集,首先對獲取的數據進行清洗,整理成我們業務所需要的新數據,然后再對新數據進行描述性統計分析,常用的是 Excel 中自帶的分析分析工具(描述性統計分析),Excel加載后即可使用。
2
描述統計分析常用指標
1、均值
均值容易受極值的影響,當數據集中出現極值時,所得到的的均值結果將會出現較大的偏差。
2、中位數:
數據按照從小到大的順序排列時,最中間的數據即為中位數。
當數據個數為奇數時,中位數即最中間的數,如果有N個數,則中間數的位置為(N+1)/2;當數據個數為偶數時,中位數為中間兩個數的平均值,中間位置的算法是(N+1)/2。中位數不受極值影響,因此對極值缺乏敏感性。
3、眾數
數據中出現次數最多的數字,即頻數最大的數值。眾數可能不止一個,眾數不能能用于數值型數據,還可用于非數值型數據,不受極值影響。
4、極差
極差=最大值-最小值,是描述數據分散程度的量,極差描述了數據的范圍,但無法描述其分布狀態。且對異常值敏感,異常值的出現使得數據集的極差有很強的誤導性。
5、四分位數
數據從小到大排列并分成四等份,處于三個分割點位置的數值,即為四分位數,四分位數分為上四分位數(數據從小到大排列排在第75%的數字,即最大的四分位數)、下四分位數(數據從小到大排列排在第25%位置的數字,即最小的四分位數)、中間的四分位數即為中位數。四分位數可以很容易地識別異常值。(一般通過箱線圖表示數據更直觀)
在上下邊緣之外的數據一般認為是異常值。
6、標準差
標準差(Standard Deviation),也稱均方差(mean square error),是各數據偏離平均數的距離的平均數,它是離均差平方和平均后的方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。
標準差越大,波動越大,平均數相同的,標準差未必相同。
標準差可以反映平均數不能反映出的東西(比如穩定度等)。
Excel中有STDEV、STDEVP;STDEVA,STDEVPA四個函數,分別表示樣本標準差、總體標準差;包含邏輯值運算的樣本標準差、包含邏輯值運算的總體標準差
在計算方法上的差異是:
樣本標準差=(樣本方差/(數據個數-1))^2
總體標準差=(總體方差/(數據個數))^2。
函數的excel分解:
(1)stdev()函數可以分解為(假設樣本數據為A1:E10這樣一個矩陣):
stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))
(2)stdevp()函數可以分解為(假設總體數據為A1:E10這樣一個矩陣):
stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))
同樣的道理stdeva()與stdevpa()也有同樣的分解方法。
7、標準分
標準分又叫標準差的標準化值,每個數據距離平均值多少個標準差。
標準分布又稱正太分布。
切比雪夫定理2.0正態分布中,至少有68%的數據,位于平均數1個標準差范圍內。正態分布中,至少有95%的數據,位于平均數2個標準差范圍內。正態分布中,至少有99.8%的數據,位于平均數3個標準差范圍內。
3
統計概率思維
概率思維:
1、如果要求的是若干事件中"至少"有一個發生的概率,則馬上聯想到概率加法公式;當事件組相互獨立時,用對立事件的概率公式;
2、若某事件是伴隨著一個完備事件組的發生而發生,則馬上聯想到該事件的發生概率是用全概公式計算;若一個完備事件組的發生而發生,則馬上聯想到該事件的發生概率是用全概公式計算;
3、凡求解各概率分布已知的若干個獨立隨機變量組成的系統滿足某種關系的概率(或已知概率求隨機變量個數)的問題,馬上聯想到用中心極限定理處理。
4
統計概率常用
貝葉斯定律模型:
對于由證據的積累來推測一個事物發生的概率具有重大作用, 它告訴我們當我們要預測一個事物, 我們需要的是首先根據已有的經驗和知識推斷一個先驗概率, 然后在新證據不斷積累的情況下調整這個概率。整個通過積累證據來得到一個事件發生概率的過程我們稱為貝葉斯分析。
二項分布:
二項分布是一種離散型的概率分布。二項代表特有兩種可能的結果,把一種稱為成功,另一種稱為失敗,每次試驗成功和失敗的概率是先溝通的,每次試驗互相獨立。例如:拋硬幣。
泊松分布:
主要踴躍軌跡某事件在特定時間或空間中發生的次數,比圖一天內中獎的個數,一個月內某機器損壞的次數等。
描述性統計分析是屬于統計學中比較小的一個理論知識,但是在日常的數據分析中,能夠快速地讓我們對一份數據進行了解,并能夠通過科學的圖表展示,發現數據規律,進行未知數據的預測。
-?END -
本文為轉載分享,侵刪
總結
以上是生活随笔為你收集整理的统计学基础知识有哪些?看这一篇就够了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机风险评估管理程序,第5章 信息安全
- 下一篇: 网络爬虫--13.数据提取之JSON与J