大数据之统计学基础(一)
1. 統計學
統計學可以分為:描述統計學與推斷統計學
描述統計學:使用特定的數字或圖表來體現數據的集中程度和離散程度。例:每次考試算的平均分,最高分,各個分段的人數分布等,也是屬于描述統計學的范圍。
推斷統計學:根據樣本數據推斷總體數據特征。例:產品質量檢查,一般采用抽檢,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。
2.均值、中位數、總數、極差、方差、標準差
對于一組數組,如果只容許使用一個數字去代表這組數據,那么這個數字應該如何選擇??——選擇數據的中心,即反映數據集中趨勢的統計量。
均值——算術平均數,描述平均水平。
中位數——將數據按大小排列后位于正中間的數描述,描述中等水平。
眾數——數據中出現最多的數,描述一般水平。
極差——最大值-最小值,簡單地描述數據的范圍大小
方差——在統計學上,更常用的是使用方差來描述數據的離散程度——數據離中心越遠越離散。其中,X?表示數據集中第i個數據的值,μ表示數據集的均值。
標準差——如果原數據的單位是m的話,那么方差的單位就是m?2,方差與原數據的單位是不一樣的,兩者沒有可比性。為了保持單位的一致性,我們引入一個新的統計量——標準差。
2.1?均值
2.2?中位數
顧名思義,中位數就是將數據按大小順序(從大到小或是從小到大都可以)排列后處于中間位置的數。若處于中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算術平均數。
2.3?眾數
眾數——數據中出現次數最多的數(所占比例最大的數)。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用于數值型數據,對于非數值型數據也同樣適用。
2.4?均值、中位數、眾數的優劣勢
| ? | 優點 | 缺點 |
| 均值 | 充分利用所有數據,適用性強 | 容易受到極端值影響 |
| 中位數 | 不受極端值影響 | 缺乏敏感性 |
| 眾數 | 當數據具有明顯的集中趨勢時,代表性好;不受極端值影響 | 缺乏唯一性:可能有一個,可能有兩個,可能一個都沒有 |
?
2.5?方差
方差公式:,方差公式經過變形后可以簡化為。
方差分總體方差與樣本方差。總體方差:,樣本方差:
?
?
?2.6?標準差
標準差:,有效地避免了因單位平方而引起的度量問題。與方差一樣,標準差的值越大,表示數據越分散。
?
總結
以上是生活随笔為你收集整理的大数据之统计学基础(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 互联网晚报 | 4月13日 星期三 |
- 下一篇: 拓扑排序简单理解