【Python】数据分析体系
生活随笔
收集整理的這篇文章主要介紹了
【Python】数据分析体系
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據分析
一、數據分析與統計入門
1. 基本概念
- 數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。
- 統計學是搜集、分析、表述和解釋數據的科學,廣泛應用在商務和經濟活動中。
- 觀測、實驗、應用
2. 深入探究
- 觀測:對事物形成客觀量化的認知(報表、圖表、儀表盤)
- 實驗:發現規律、驗證假設(科學研究、A/B測試)
- 應用:不斷基于數據反饋迭代產品
3. 觀測
- 觀察:采集數據、儲存數據、展示數據
- 采集數據:解析系統日志
- 采集數據:埋點獲取新數據
- 采集數據:通過傳感器采集
- 采集數據:爬蟲(解析網站)
- 采集數據:API (API 平臺文檔、用API 獲取數據)
- 儲存數據:各類類型的數據庫-hive、mysql、presto、impala(數據工程師)
- 儲存數據:連接數據庫取數
- 展示數據:可視化高效傳達信息
- 測量:設定標準、發現異常、研究關系
4. 分析數據的目的
- 及時發現異常
- 找到數據之間的因果關系
5. 數據是客觀統一的
- 數據是客觀統一的:有統一的認知才能有共同的目標
- 設定標準+發現異常
- 研究關系:可視化查看相關性、建模推導相關性
6. 實驗
- 提出假設,然后驗證假設
- 觀測到差評率飆升、假設由惡劣天氣引起、通過天氣數據驗證假設
- 所有未經過事實數據驗證的想法都是假設
- 設計A/B測試獲取數據
- 實驗目標、實驗假設、實驗打分、實驗指標、實驗觀眾、實驗版本、開發驗收、實驗結果、實驗分析、后續計劃
7. 應用
- 如何應用數據創造價值
- 基于數據反饋不斷迭代產品和業務策略
- 明確業務的目標,拆解目標,得到標準值
- 流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、pest、rfm、swot、5w1h(拆解只要符合mece法則即可)
- 將數據應用于業務
- 將數據應用于算法
- 為算法設定明確的業務目標
- 為算法提供高質量的數據
- 判斷算法是否真的創造了實際價值
- 幫助業務更好地使用算法
- 基于數據訓練算法,讓機器自動化地完成工作
- 基于數據反饋不斷迭代產品和業務策略
8. 術語
- GMV 營業額/商品交易總額
二、數據分析初步應用
1. 數據源
- 數據 (data) 是為了描述和解釋所搜集、分析 匯總的事實和數字。
將用于特定研究而搜集的所有數據稱為研究的數據集。 - 個體(element) 是指所收集數據的實體。
- 變量( variable) 是個體中所感興趣的那些特征。
- WTO 身份:世界貿易組織中的成員身份,它可以是成員或觀察員
- 人均GDP (美元) :國家總產出除以該國的總人口數,它通常用于比較國家經濟生產率
- 貿易逆差(1000 美元) :國家的進口總額與出口總額之差
- 惠譽評級:由惠譽國際組織評價的國家主權信用評級,信用評級從最高的AAA到最低的F,可用+或-來微調。
- 惠譽評級展望:未來 信用評級可能變動的方向性指標,展望可以是正面、穩定或負面
- 在一項研究中,對每個個體的每一變量收集測量值,從而得到了數據。對某一特定個體得到的測量值集合稱為一個觀測值 (observation) 。
- 如上圖所示,我們得到第一個觀測值(亞美尼亞)的測量值集合是成員、 5400,267335739,BB-,Stable 。第二個觀測值(澳大利亞)的測量值集合是成員,40 800,-33304157, AAA , Stable 。
- 60 個個體的數據集有 60 個觀測值。
2. 數據可視化
- 數據可視化是關于數據視覺表現形式的科學。其中,這種表現形式被定義為一種包括相應信息單位的各種屬性和變量的信息抽取和提煉。
3. 小結
- 數據來源類型包括數據文件、數據庫、API、流式數據、外部公開數據和其他來源等。
- 統計實踐的準則
- 公平、謹慎、客觀和中立的態度
- 數據分析及統計從業人員應當避免任何對預測結果有傾向性的統計分析工作。
- 例:在國內的許多地區,飯店內是不允許吸煙的,假如煙草業的說客在允許吸煙的飯店進行調查. 目的是估計贊成在飯店內允許吸煙的就餐者比例, 抽樣結果表明 90% 的受訪者同意在飯店內允許吸煙。根據這個抽樣結果,說客聲稱飯店所有就餐者中有90% 的人贊成在飯店內允許吸煙。在這個案例中我們應該指出只在允許吸煙的飯店所做的抽樣會歪曲調查結果。如果只報告該研究的這個最終結果,而不熟悉研究的細節(如樣本是在允許吸煙的飯店搜集的) ,讀者就會被誤導。
4. 案例
- 這個數據集中有多少個體? 10
- 這個數據集中有多少變量? 5
- 哪些變量是分類變量,哪些變量是數量變量?
- The ten elements are the ten tablet computers
- 5 variables: Cost ($), Operating System, Display Size (inches), Battery Life (hours), CPU Manufacturer
- Categorical variables: Operating System and CPU Manufacturer
- Quantitative variables: Cost ($), Display Size (inches), and Battery Life (hours)
三、圖表分析方法初步
1. 數據可視化
- 數據可視化 (dala visalization) 常常用于描述匯總和表述一個數據集信息的圖形顯示的效用
- 頻數分布是一種數據的圖表匯總方法,表示在幾個互不重疊組別中,每一組項目的個數(即頻數)。
- 條形圖 (bar chart) 是一種圖形方法,用來描繪已匯總的分類數據的頻數分布、相對頻數分布或百分數頻數分布。
- 在圖形的一個軸上(通常是橫軸) ,我們規定了用來對數據分組(類別)的標記,在圖形的另一個軸上(通常是縱軸) 標出頻數、相對頻數或百分數頻數的刻度。
- 用一個固定寬度的長條繪制在每一組的標記上,將這個長條的高度延伸,直到達到該組的頻數、相對頻數 、點百分數頻數 、對于分類變量數據應將這些長條分隔開,以強調每一組是相互獨立的事實。
- 餅形圖 (pie chart) 是另一種描繪分類型數據的相對頻數和百分數頻數分布的圖形方法。首先畫一個圓來代表所有的數據, 然后用相對頻數把圓細分成若干扇形部分 ,這些扇形與每一組的相對頻數相對應。
- 一般地,餅形圖不是呈現對比的百分比的最佳途徑。人們更愿意準確判斷長度間的差異,而非角度(或部分)間的差異,當進行這樣的比較時建議你使用條形圖。
四、實踐中的數據分析
1. 數據處理經驗
- 數據清洗:缺失值、異常值和重復值的處理
- 樣本類別不平衡
- 解決數據源的沖突
- 數據的共線性
五、Excel基礎操作
1. sum函數
- SUM(number1,number2,…) SUM(列名) SUM(行名)
- SUM(單個或多個單元格) SUM(列的名稱 如:A:A) SUM(行的名稱 如:1:1)
- 例1:單元格里輸入=sum(C15:C21)
- 例2:=SUM(‘源數據’!J:J) // 1-8月GMV
- 例3:=SUM(‘源數據’!J2:J25,‘源數據’!J496:J562) // 1月和8月GMV
- 視圖 - 新建窗口 分屏(方便查看數據)
- 視圖 - 凍結窗格 基于選擇的單元格凍結
- 點B2的格子然后點凍結窗格可以實現第一行和第一列同時凍結
總結
以上是生活随笔為你收集整理的【Python】数据分析体系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电力电子矢量输出总结
- 下一篇: Hadoop MapReduce编程模型