怎么统计是否内宿_第二关:描述统计分析
統計:在我的理解里面,是對各種數字,情況的一個匯總,就像我們每天做的表格一樣,匯集了不同種了不同數量不同來源的數據,但這些數據雜亂無章怎么識別,那么就需要一個方法來描述這些數據——描述統計分析,就是讓數據可視化簡潔化,讓人們有需求的對數據進行分析和解讀。
描述統計四個指標:
1.平均值
生活中最經常碰到的一種指標,但出現異常數據的時候,容易造成分析錯誤。
2.四分位數
定義:是指在統計學中把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值,處于25%的位置為下分位點,處于75%的位置為上分位點。
特點:可以識別異常的數據加以核實及刪改。
識別異常數據方法:
最小估計值:Q1-k(Q3-Q1)
最大估計值:Q3-k(Q3-Q1)
k=1.5 中度異常
k=3極度異常
(Q1為下分位點,Q2為上分位點)
3.標準差
標準差是對整體數據的波動大小進行判斷。
標準差公式:
標準差在不同的應用中有不同的額判斷方式:
例如:一個球員是否值得留在球隊,可分析其每場比賽得分的標準差,判斷是否穩定,標準差越小越好,對于一個剛成立的公司來說,需分析其后期是否有較大的增值空間,則其正向波動越大則越好。
4.標準分
表示某個數值距離平均值有多少個標準差
公式:
【Z=(X-X_bar)/S
式中,X為原始分數,X_bar為原始分的平均數,S為原始分的標準差。】
等于0,等于平均值;
大于零,大于平均值;
小于零,小于平均值。
數據集的選擇:表1購買商品數據集
表1購買商品(sample)sam_tianchi_mum_baby_trade_history.csv)
1)表1購買商品字段
用戶ID:user_id 是用戶注冊的ID號,可識別是否為同一個人產生的購買行為
商品編號(item_id):auction_id,用于對應商品名稱
商品二級分類:cat_id,商品種類ID,表示商品屬于哪個類別
商品一級分類:cat1,商品種類ID,表示商品屬于哪個類別
這兩個分為一個大類,一個小類,可分析哪類產品銷量比較高,銷售力度大。
商品屬性:property,可分析哪種類別的產品購買需求量大,對于商家來說可以增加相關產品庫存量
購買數量:buy_mount:可分析相關產品銷量的多少
購買時間:day 可分析在什么時間段內用戶購買量最多
你想從該數據集中得到哪些描述統計信息?
1.購買數量的平均值,四分位數,標準差
2.購買時間的標準差
從該數據集中分析哪些業務問題?
1.用戶在哪些時間段內購買需求最大,字段需求:購買時間:day,購買數量:buy_mount
2.哪種商品編號購買量, 字段需求:最多商品編號(item_id):auction_id,購買數量:buy_mount
3.該商品編號的商品哪種屬性的商品購買量最多,字段需求:商品編號(item_id):auction_id,商品屬性:property,購買數量:buy_mount
還需要學習的技能:標準差四分位數在Excel的函數公式,Python箱線使用
總結
以上是生活随笔為你收集整理的怎么统计是否内宿_第二关:描述统计分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 144hz minidp转dp_毕亚兹m
- 下一篇: OpenDDS通讯rtps_discov