统计建模与r软件_【统计建模与R软件笔记】008 描述统计量(1)
今天我們開始來學習描述統計量吧!
位置的度量
位置的度量就是用來描述定量資料的集中趨勢的統計量,常用的有均值、眾數、中位數、百分位數等。
1.均值 mean( )
形式:
mean(x, trim = 0, na.rm = FALSE)
x 是對象(如向量、矩陣、數組或數據框)
trim 是計算均值前去掉與均值差較大數據的比例,缺省值為0,即包括全部數據
na.rm = TRUE 時,允許數據中有缺失數據
trim 的取值在 0 到 0.5 之間,表示計算均值前去掉異常值的比例。將向量 w 中的第一個數值改成 750 ,來看看 trim 參數好不好用吧!
當 x 是矩陣或數組時,函數 mean( ) 的返回值,不是向量,而是一個數,是矩陣中全部數據的平均值。
如果需要各行或各列的平均值,需要調用 apply( ) 函數
如果 x 是數據框,則 mean( ) 的返回值就是向量
2. sum( ) / weighted.mean( )
形式:
sum(x, na.rm = FALSE)
weighted.mean(x, w, na.rm = FALSE)
w 是數據 x 的求和權數,與 x 的維數相同
其他參數的含義見上
關系式:mean(x) = sum(x) / length(x)
3.順序統計量 sort( )
將 n 個數據按從小到大的順序排列為:X(1) <= x(2) <= …… <= x(n)
最小統計量為 X(1), 最大統計量為 X(n)
形式:
sort(x, partial = NULL, na.last = NA, decreasing = FALSE)
x 可以是數值、或字符、或邏輯型向量
partial 是部分排序的指標向量
na.last 是控制缺失數據的參數, na.last = NA(缺省值),不處理缺失數據;na.last = TRUE ,缺失數據排在最后;na.last = FALSE, 缺失數據排在最前。
decreasing 是邏輯變量,控制數據排列的順序, decreasing = FALSE(缺省值),從小到大排序;decreasing = TRUE ,從大到小排序
用 sort( ) 給觀測值排序
4.中位數 median( )
中位數的一顯著特點是不受異常值的影響,具有穩健性
形式:
median(x, na.rm = FALSE)
5.百分數 quantile( )
百分位數是中位數的推廣, quantile( ) 函數計算觀測值的百分數
形式:
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE)
probs 是相應的百分位數,缺省時為( 0, 0.25, 0.5, 0.75, 1), 其中 seq(from = value_1, to = value_2, step = value_3 )
分散程度的度量
表示數據分散(或變異)程度的特征量有:方差、標準差、極差、四分位極差、變異系數和標準誤等
1.方差、標準差與變異系數
以樣本數據來衡量總體統計量
注:下文中的bar{x}?均為樣本均值
方差公式:
方差形式:var( )
標準差公式:
標準差形式:sd( )
變異系數公式:
變異系數的計算需要自行編寫函數來計算
2.極差、四分位極差與標準誤
數據越分散,其極差越大。
公式:x(n) - x(1)
樣本上、下四分位數之稱為四分位差(或半極差),對具有異常值的數據來說,具有穩健性。
公式:Q(3) - Q(1)
標準誤公式:
分布形狀的度量
如偏度系數和峰度系數
偏度系數 g1 公式:
峰度系數 g2 公式:
哇~今天的內容都學會啦!是不是跟統計學很一樣呢對呀!小編下一節會將啥咧?下一節咱們用圖來描述數據咋樣?夠高 level 吧哇塞酷炫!盤他!!掃碼關注一個吧~~
總結
以上是生活随笔為你收集整理的统计建模与r软件_【统计建模与R软件笔记】008 描述统计量(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hping3使用详解
- 下一篇: Visual Studio Code 使