可汗学院统计学1-16课笔记
[第1課] 均值 中位數 眾數
- 均值(平均值) = 數據之和 / 數據個數
- 中位數 = 數據排序后,處在中間的數(如果兩位數取平均值)
- 眾數 = 出現次數最多的數,一組數據可以有多個眾數
[第2課] 極差 中程數
- 極差 = 最大數 - 最小數
- 中程數 = 最大數和最小數的均值
[第3課] 象形統計圖
如上圖所示:
一滴血代表8個人,
O+型血有8滴,表示的人數為 8×88\times88×8=64人;
O-血型人數為8×28\times28×2=16人
[第4課] 條形圖
本節簡單不再詳述
[第5課] 線形圖
本節簡單不再詳述
[第6課] 餅圖
本節簡單不再詳述
[第7課] 誤導人的線形圖
本節簡單不再詳述
[第8課] 莖葉圖
上圖是12個足球隊員的各自得分,總共得多少分?
Stem:得分十位數
Leaf:得分個位數
總計得分:(0+0+2+4+7+7+9) + (11+11+11+13+18) + (20)
[第9課] 箱線圖
箱式圖,是指—種描述數據分布的統計圖,是表述最小值、第一四分位數、中位數、第三四分位數與最大值的一種圖形方法。它也可以粗略地看出數據是否具有對稱性,分布的分散程度等信息[1]。
飯店老板調查了一些位顧客,他們來的地方距離飯店分別為14,6,3,2,…,10,22,20。用什么圖表示這些距離的分布比較直觀呢?(箱線圖)
首先對這些數據進行排序,得出數據個數為17,最小值為1,最大值為22,中位數為6。
import numpy as np#定義數據 data=np.array([14,6,3,2,4,15,11,8,1,7,2,1,3,4,10,22,20])#排序 data=np.sort(data) print(f'data = {data}')#數據個數 print(f'size = {data.size}')# 中位數 print(f'median = {np.median(data)}') data = [ 1 1 2 2 3 3 4 4 6 7 8 10 11 14 15 20 22] size = 17 median = 6.0取左邊8位數和右邊8位數,各取中位數,作為盒子的左(2.5)、右(14)坐標畫盒子;最小值(1)作為左邊線的坐標點,最大值(22)作為右邊線的坐標點,連上盒子;中位數(6)是盒子內部豎線坐標點。
data_left=data[0:8] print(f'data_left = {data_left}') print(f'median_left = {np.median(data_left)}')data_right=data[10:] print(f'data_right = {data_right}') print(f'median_right = {np.median(data_right)}') data_left = [1 1 2 2 3 3 4 4] median_left = 2.5 data_right = [ 8 10 11 14 15 20 22] median_right = 14.0如下圖所示:
可以用Python繪制箱線圖:
補充材料:
四分位數:四分位數有三個,在盒子的左右和中間位置,上圖分別是Q1=2.5Q1=2.5Q1=2.5、Q2=6Q2=6Q2=6、Q3=12.5Q3=12.5Q3=12.5
四分位數的位置:
假設有n項,那么Q1位置在n+14\frac{n+1}{4}4n+1?、Q2位置在n+12\frac{n+1}{2}2n+1?、Q3位置在3(n+1)4\frac{3(n+1)}{4}43(n+1)?
如果(n+1)不為4的整數倍數,按上述分式計算出來的四分位數位置就帶有小數,這時,有關的四分位數就應該是與該小數相鄰的兩個整數位置上的標志值的平均數,權數的大小取決于兩個整數位置距離的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和等于1。
【例】某車間某月份的工人生產某產品的數量分別為13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,則三個四分位數的位置分別為:
Q1 => (10+1)/4=2.75 Q2 => (10+1)/2=5.5 Q3 => 3*(10+1)/4=8.25即變量數列中的第2.75項、第5.5項、第8.25項工人的某種產品產量分別為下四分位數、中位數和上四分位數。即:
Q1 = 0.25*第二項 + 0.75*第三項 = 13.75參考:https://blog.csdn.net/kevinelstri/article/details/52937236
[第10課] 箱線圖2
上圖是100棵樹的樹齡箱線圖,問樹齡極差是多少,樹齡中位數是多少?
由圖可以看出:最小值是8,最大值是50,所以極差是50-8=42;中位數就是盒子里的豎線坐標21。
[第11課] 統計:集中趨勢
集中趨勢 (central tendency) 又稱“數據的中心位置”,再次介紹了均值,中位數和眾數。見第1課
[第12課] 統計:樣本和總體
提出樣本和總體的概念。比如求美國所有男性的平均身高,可以抽取部分樣本數據計算平均值X ̄=∑i=1NxiN=x1+x2+...+xNN\overline{X}={ {\sum\limits_{i=1}^{N}x_i}\over{N} }={x_1+x_2+...+x_N \over N}X=Ni=1∑N?xi??=Nx1?+x2?+...+xN??,一定程度上代表了總體均值μ\muμ。
∑\sum∑讀作sum
[第13課] 統計:總體方差
方差(variance)用來描述數據和均值之間的偏離程度 。σ2\sigma^2σ2 讀作 sigma square
方差公式:σ2=∑i=1N(xi?μ)2N\sigma^2={ {\sum\limits_{i=1}^{N}(x_i-\mu)^2}\over{N} }σ2=Ni=1∑N?(xi??μ)2?
例如數據 1,2,3,4, 平均值是1+2+33=2{1+2+3\over3}=231+2+3?=2,總體方差是(1?2)2+(2?2)2+(3?2)23=23=0.666...{(1-2)^2+(2-2)^2+(3-2)^2\over3}={2\over3}=0.666...3(1?2)2+(2?2)2+(3?2)2?=32?=0.666...
import numpy as np#定義數據 data=np.array([1,2,3])# 均值 print(f'mean(average) = {np.mean(data)}')# 方差 print(f'variance = {np.var(data)}') mean(average) = 2.0 variance = 0.6666666666666666[第14課] 統計:樣本方差
樣本方差跟總體方差公式不一樣:S2=∑i=1n(xi?X ̄)2n?1S^2={ {\sum\limits_{i=1}^{n}(x_i-\overline{X})^2}\over{n-1} }S2=n?1i=1∑n?(xi??X)2? 注意是n-1而不是n。 詳見《徹底理解樣本方差為何除以n-1》
例如數據 1,2,3,4, 平均值是1+2+33=2{1+2+3\over3}=231+2+3?=2,樣本方差是(1?2)2+(2?2)2+(3?2)23?1=23?1=1{(1-2)^2+(2-2)^2+(3-2)^2\over3-1}={2\over3-1}=13?1(1?2)2+(2?2)2+(3?2)2?=3?12?=1
import numpy as np#定義數據 data=np.array([1,2,3])# 均值 print(f'mean(average) = {np.mean(data)}')# 樣本方差 print(f'sample variance = {np.var(data,ddof=1)}') mean(average) = 2.0 sample variance = 1.0[第15課] 統計:標準差
標準差 (standard deviation)是表述數據和均值之間的偏離程度的另一個重要標志。它等于方差的平方根。
標準差公式:σ=σ2\sigma=\sqrt{\sigma^2}σ=σ2?
樣本標準差公式:S=S2S=\sqrt{S^2}S=S2?
[第16課] 統計:諸方差公式
本節課,可汗老師對原始方差公式進行推導,得出如下更簡潔的公式。
主要參考資料:
主要參考資料:
視頻:《可汗學院統計學》
文章:csdn shangboerds 學習筆記
Jent’s Blog 學習筆記(后來發現的,寫得很好,推薦)
總結
以上是生活随笔為你收集整理的可汗学院统计学1-16课笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马士兵JVM 精讲笔记(一)
- 下一篇: 用软件可编程FPGA加速网络边缘的移动应