當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

可汗学院统计学1-16课笔记

發布時間：2023/12/15 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了可汗学院统计学1-16课笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[第1課] 均值中位數眾數

均值(平均值) = 數據之和 / 數據個數
中位數 = 數據排序后，處在中間的數（如果兩位數取平均值）
眾數 = 出現次數最多的數,一組數據可以有多個眾數

import numpy as np import pandas as pd#定義數據 data=np.array([1,2,2,3,3,4])# 均值 print(f'mean(average) = {np.mean(data)}')# 中位數 print(f'median = {np.median(data)}')# 眾數 df = pd.DataFrame(data) print(f'mode = {df[0].mode()}') mean(average) = 2.5 median = 2.5 mode = 0 2 1 3 dtype: int32

[第2課] 極差中程數

極差 = 最大數 - 最小數
中程數 = 最大數和最小數的均值

import numpy as np#定義數據 data=np.array([1,2,2,3,3,4])x = np.array([np.max(data), np.min(data)])#最大數 print(f'max = {x[0]}')#最小數 print(f'min = {x[1]}')# 極差 print(f'range = {x[0]-x[1]}') print(f'range = {np.ptp(data)}')# 中程數 print(f'midrange = {x.sum()/x.size}') print(f'midrange = {np.mean(x)}') max = 4 min = 1 range = 3 range = 3 midrange = 2.5 midrange = 2.5

[第3課] 象形統計圖

如上圖所示：
一滴血代表8個人，
O+型血有8滴，表示的人數為 $8×88\times8$ =64人;
O-血型人數為 $8×28\times2$ =16人

[第4課] 條形圖

本節簡單不再詳述

[第5課] 線形圖

本節簡單不再詳述

[第6課] 餅圖

本節簡單不再詳述

[第7課] 誤導人的線形圖

本節簡單不再詳述

[第8課] 莖葉圖

上圖是12個足球隊員的各自得分，總共得多少分？
Stem：得分十位數
Leaf：得分個位數
總計得分：(0+0+2+4+7+7+9) + (11+11+11+13+18) + (20)

[第9課] 箱線圖

箱式圖，是指—種描述數據分布的統計圖，是表述最小值、第一四分位數、中位數、第三四分位數與最大值的一種圖形方法。它也可以粗略地看出數據是否具有對稱性，分布的分散程度等信息[1]。

飯店老板調查了一些位顧客，他們來的地方距離飯店分別為14,6,3,2,…,10,22,20。用什么圖表示這些距離的分布比較直觀呢？（箱線圖）

首先對這些數據進行排序，得出數據個數為17，最小值為1，最大值為22，中位數為6。

import numpy as np#定義數據 data=np.array([14,6,3,2,4,15,11,8,1,7,2,1,3,4,10,22,20])#排序 data=np.sort(data) print(f'data = {data}')#數據個數 print(f'size = {data.size}')# 中位數 print(f'median = {np.median(data)}') data = [ 1 1 2 2 3 3 4 4 6 7 8 10 11 14 15 20 22] size = 17 median = 6.0

取左邊8位數和右邊8位數，各取中位數，作為盒子的左(2.5)、右(14)坐標畫盒子；最小值(1)作為左邊線的坐標點，最大值(22)作為右邊線的坐標點，連上盒子；中位數(6)是盒子內部豎線坐標點。

data_left=data[0:8] print(f'data_left = {data_left}') print(f'median_left = {np.median(data_left)}')data_right=data[10:] print(f'data_right = {data_right}') print(f'median_right = {np.median(data_right)}') data_left = [1 1 2 2 3 3 4 4] median_left = 2.5 data_right = [ 8 10 11 14 15 20 22] median_right = 14.0

如下圖所示：

可以用Python繪制箱線圖：

import numpy as np import matplotlib.pyplot as plt import pandas as pddata = np.array([14, 6, 3, 2, 4, 15, 11, 8, 1, 7, 2, 1, 3, 4, 10, 22, 20]) df = pd.DataFrame({'distance':data}) df.boxplot(patch_artist=True,showmeans=True, )plt.show()

補充材料：

四分位數：四分位數有三個，在盒子的左右和中間位置，上圖分別是 $Q 1 = 2.5$ 、 $Q 2 = 6$ 、 $Q 3 = 12.5$
四分位數的位置：
假設有n項，那么Q1位置在 $n+14\frac{n+1}{4}$ 、Q2位置在 $n+12\frac{n+1}{2}$ 、Q3位置在 $3(n+1)4\frac{3(n+1)}{4}$

如果（n+1）不為4的整數倍數，按上述分式計算出來的四分位數位置就帶有小數，這時，有關的四分位數就應該是與該小數相鄰的兩個整數位置上的標志值的平均數，權數的大小取決于兩個整數位置距離的遠近，距離越近，權數越大，距離越遠，權數越小,權數之和等于1。

【例】某車間某月份的工人生產某產品的數量分別為13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤，則三個四分位數的位置分別為：

Q1 => (10+1)/4=2.75 Q2 => (10+1)/2=5.5 Q3 => 3*(10+1)/4=8.25

即變量數列中的第2.75項、第5.5項、第8.25項工人的某種產品產量分別為下四分位數、中位數和上四分位數。即：

Q1 = 0.25*第二項 + 0.75*第三項 = 13.75

參考:https://blog.csdn.net/kevinelstri/article/details/52937236

[第10課] 箱線圖2

上圖是100棵樹的樹齡箱線圖，問樹齡極差是多少，樹齡中位數是多少？

由圖可以看出：最小值是8，最大值是50，所以極差是50-8=42；中位數就是盒子里的豎線坐標21。

[第11課] 統計：集中趨勢

集中趨勢 (central tendency) 又稱“數據的中心位置”，再次介紹了均值，中位數和眾數。見第1課

[第12課] 統計：樣本和總體

提出樣本和總體的概念。比如求美國所有男性的平均身高，可以抽取部分樣本數據計算平均值 $X￣=∑i=1NxiN=x1+x2+...+xNN\overline{X}={ {\sum\limits_{i=1}^{N}x_i}\over{N} }={x_1+x_2+...+x_N \over N}$ ，一定程度上代表了總體均值 $μ\mu$ 。

$∑\sum$ 讀作sum

[第13課] 統計：總體方差

方差（variance）用來描述數據和均值之間的偏離程度。 $σ2\sigma^2$ 讀作 sigma square

方差公式： $σ2=∑i=1N(xi?μ)2N\sigma^2={ {\sum\limits_{i=1}^{N}(x_i-\mu)^2}\over{N} }$

例如數據 1,2,3,4, 平均值是 $1+2+33=2{1+2+3\over3}=2$ ,總體方差是 $(1?2)2+(2?2)2+(3?2)23=23=0.666...{(1-2)^2+(2-2)^2+(3-2)^2\over3}={2\over3}=0.666...$

import numpy as np#定義數據 data=np.array([1,2,3])# 均值 print(f'mean(average) = {np.mean(data)}')# 方差 print(f'variance = {np.var(data)}') mean(average) = 2.0 variance = 0.6666666666666666

[第14課] 統計：樣本方差

樣本方差跟總體方差公式不一樣： $S2=∑i=1n(xi?X￣)2n?1S^2={ {\sum\limits_{i=1}^{n}(x_i-\overline{X})^2}\over{n-1} }$ 注意是n-1而不是n。詳見《徹底理解樣本方差為何除以n-1》

例如數據 1,2,3,4, 平均值是 $1+2+33=2{1+2+3\over3}=2$ ,樣本方差是 $(1?2)2+(2?2)2+(3?2)23?1=23?1=1{(1-2)^2+(2-2)^2+(3-2)^2\over3-1}={2\over3-1}=1$

import numpy as np#定義數據 data=np.array([1,2,3])# 均值 print(f'mean(average) = {np.mean(data)}')# 樣本方差 print(f'sample variance = {np.var(data,ddof=1)}') mean(average) = 2.0 sample variance = 1.0

[第15課] 統計：標準差

標準差 (standard deviation)是表述數據和均值之間的偏離程度的另一個重要標志。它等于方差的平方根。
標準差公式： $σ=σ2\sigma=\sqrt{\sigma^2}$
樣本標準差公式： $S=S2S=\sqrt{S^2}$

import numpy as np#定義數據 data=np.array([1,2,3])# 方差 print(f'variance = {np.var(data)}') # 標準差 print(f'standard deviation = {np.std(data)}')# 樣本方差 print(f'sample variance = {np.var(data,ddof=1)}') # 標準差 print(f'sample standard deviation = {np.std(data,ddof=1)}') variance = 0.6666666666666666 standard deviation = 0.816496580927726 sample variance = 1.0 sample standard deviation = 1.0

[第16課] 統計：諸方差公式

本節課，可汗老師對原始方差公式進行推導，得出如下更簡潔的公式。

主要參考資料：

主要參考資料：
視頻：《可汗學院統計學》
文章：csdn shangboerds 學習筆記
Jent’s Blog 學習筆記（后來發現的，寫得很好，推薦）

總結

以上是生活随笔為你收集整理的可汗学院统计学1-16课笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：马士兵JVM 精讲笔记（一）
下一篇：用软件可编程FPGA加速网络边缘的移动应

编程问答

可汗学院统计学1-16课笔记

[第1課] 均值 中位數 眾數

[第2課] 極差 中程數

[第3課] 象形統計圖

[第4課] 條形圖

[第5課] 線形圖

[第6課] 餅圖

[第7課] 誤導人的線形圖

[第8課] 莖葉圖

[第9課] 箱線圖

補充材料：

[第10課] 箱線圖2

[第11課] 統計：集中趨勢

[第12課] 統計：樣本和總體

[第13課] 統計：總體方差

[第14課] 統計：樣本方差

[第15課] 統計：標準差

[第16課] 統計：諸方差公式

主要參考資料：

總結

[第1課] 均值中位數眾數

[第2課] 極差中程數