task2 EDA数据分析
目標
了解,驗證數據集
了解變量關系,與預測值之間關系
數據處理、特征工程
數據探索性分析
EDA探索性數據分析
通過EDA可實現:
1. 得到數據的直觀表現?
2. 發現潛在的結構?
3. 提取重要的變量?
4. 處理異常值?
5. 檢驗統計假設?
6. 建立初步模型?
7. 決定最優因子的設置
?
數據類型
數據一般按類型分為兩種:離散型和連續型;
離散型的數據相當于分類型數據,如性別、種族、教育程度等。其中,有些類別是沒有順序的,如性別;有些類別則是有順序的,如教育程度。這兩種情況分別稱為名義變量和有序變量。
對于連續型變量,一般是在值域里面連續取值,這種變量一般是有序的。
統計量
中位數、方差、 內距(Q3?Q1Q3?Q1)
箱線圖和直方圖
一般步驟
1.拿到數據后,用來探索的方法分為兩類,一是基于圖像的,二是基于定量方法的。
常見問題:
- 一般統計量:均值,中位數,方差,分布,分位數,
- 工程修改是否 產生作用:變量變換、缺失值處理
- 自變量是否對結果有影響
- 響應變量和自變量之間的最佳函數
- 時間相關數據能否信噪分離
- 多維變量提取結構?
- 離群值?
知識樹:
實戰案例
目標名稱:水的供應和用水是否與人均國內生產總值有關?(提出假設)
數據源:http://www.fao.org/nr/water/aquastat/data/query/index.html下圖數據源界面(如果您經常做學術研究,例如OECD等數據都是這樣的。)
數據源簡單介紹:
網站:http://www.fao.org/nr/water/aquastat/metadata/index.stm
組織的三個主要目標是:
1.消除饑餓、糧食不安全和營養不良
2.消除貧困促進經濟社會進步
3.自然資源的可持續管理和利用,包括土地、水、空氣、氣候和遺傳資源,以造福今世后代。
為支持這些目標,《憲法》第1條要求糧農組織“收集、分析、解釋和傳播與營養、糧食和農業有關的信息”。因此,水溫自動調節器開始,其目的是通過收集有助于聯合國糧農組織的目標,與水資源相關的信息傳播分析,用水和農業用水管理,對國家重點在非洲,亞洲,美國,拉丁美洲,加勒比海。
聯合國糧農組織提供數據,元數據,報告國家概況,河流域概況,分析區域,圖,表空間,數據,指導方針,和其他的在線工具:
1、水資源:內部、跨界、總
2、水的用途:按部門,按來源,廢水
3、灌溉:地點、面積、類型、技術、作物
4、水壩:位置,高度,容量,表面積
5、與水有關的機構、政策和立法
項目軟件:軟件python 3.6展示的軟件Anaconda里面的jupster notebook,運行環境Window7,使用電腦Thinkpad T450。
項目計劃:
通過對數據有簡單的預估,這個時候,由于自己的電腦內存比較小,跑上十萬以后的數據都會有明顯的卡頓,為此采取了一個特殊的策略—使用Tidy Data進行試驗。Tidy Data大家可能不熟悉,我直接也給大家上了干貨。TidyData的官方解讀:https://tomaugspurger.github.io/modern-5-tidy.html直接連接可以查看如何使用小批量的數據進行實驗。
本實驗的目標為三點:每個變量形成一個列,每個觀測值形成一行,不同類型的觀測單元組成一個表格。
數據轉換:
1、取對數log:當數據的峰值很高,通過將數據取對數能夠將數據歸一化處理。
2、連續變量分組(bin):分組連續變量,能夠更加簡便的了解觀測值的分布。
3、簡化類別:一個單一的數據,往往類別太多會讓人迷亂,一般不想超過8-10列,那就盡量找到重要的類別。(機器學習里面這一個部分很重要,和特征選擇一樣)
項目開始:
第一步,不可或缺的導入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings大家對這四個包不熟悉的可以百度官方網站,有專門的材料。特別主要的就是Seaborn,這個庫目前可視化的能力已經超過之前對Python的理解,有很多人說R可視化效果很好,但是我覺得這個可視化一點都不差。%matplotlib inline很多人不懂為什么會加上這個意思,這就是在jupter畫圖的時候,能夠將可視化的圖能夠在結果中展現出來,我試過很多時候忘記加,結果圖就只出現一行字。所以需要加上這個。
第二步,導入數據
由于數據是壓縮包的形式,我們平時一般的是CSV,TXT的格式,那我們可以試一試壓縮包的讀取方式。對數據進行基本的了解,Pandas為我們提供了很多可以簡便查看和檢查數據的方法。data.info(),data.shape,data.head(),data.tail()。
結果展示:
之后的四步,見下一篇博文。
總結
以上是生活随笔為你收集整理的task2 EDA数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UESTC学位论文latex模板下载
- 下一篇: C#中IEnumerableT.Dist