探索性数据分析EDA及数据分析图表的选择
生活随笔
收集整理的這篇文章主要介紹了
探索性数据分析EDA及数据分析图表的选择
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 一、探索性數據分析EDA
- 二、數據分析圖表的選擇
一、探索性數據分析EDA
探索性數據分析(Exploratory Data Analysis,簡稱EDA),指對數據分析的過程中盡量不加入先驗假設,而是通過作圖表和統計等方式來探索數據結構和規律。
在EDA中你可以構思各種各樣的假設,并通過數據分析去尋找相應的反饋,以此迭代來尋找到數據集中分布的規律。在探索的過程中會隨著不斷的深入對數據理解更加深刻。
EDA的流程如下:提出問題;篩選、清洗數據;分析數據;構建模型;得出結論。
EDA的過程與數據挖掘的流程不謀而合,特征是否起作用需要具體的分析和驗證。從數據本身出發去尋找合適的特征。
在數據競賽中,使用EDA完成數據分析的過程如下:
變量是什么類型;
變量是否有缺失值;
變量是否有異常值;
變量是否有重復值;
變量是否均勻;
變量是否需要轉換;
變量與標簽是否存在相關性;
變量與標簽是否存在業務邏輯;
1)連續型變量與連續型變量;
可視化:散點圖、相關性熱力圖;皮爾遜系數;互信息;
2)離散變量與離散變量;
可視化:柱狀圖、餅圖、分組表;卡方檢驗;
3)檢查變量之間的正態性;直方圖;箱線圖;Quantile-Quantile (QQ圖);
根據EDA我們可以得出以下結論:變量是否需要篩選、替換和清洗;變量是否需要轉換;變量之間是否需要交叉;變量是否需要采樣;
二、數據分析圖表的選擇
可視化目的:比較/趨勢/組成/聯系/分布;
可視化變量類型:數值/日期/類別/經緯度;
可視化維度:分布/趨勢;
總結
以上是生活随笔為你收集整理的探索性数据分析EDA及数据分析图表的选择的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PowerBI,自定义编辑同一页面中不同
- 下一篇: linux python命令无反应_Py