利用python进行数据分析之准备工作(1)
目錄
?
一、簡介
二、重要的python庫
1.numpy庫
2.pandas
3.matplotlib
4.IPython
5.Scipy
三、python環(huán)境安裝和數(shù)據(jù)分析前的數(shù)據(jù)準備
一、簡介
什么是數(shù)據(jù)?本欄目的數(shù)據(jù)主要指的是結(jié)構(gòu)化的數(shù)據(jù),通常我們使用數(shù)據(jù)這一說法來籠統(tǒng)地概括所有通用格式的數(shù)據(jù),如:多維數(shù)組、表格型數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、時間序列等。大部分數(shù)據(jù)集都會在我們實際的應(yīng)用過程中被轉(zhuǎn)化為更加適合我們分析和建模的結(jié)構(gòu)化形式的數(shù)據(jù)。
為什么利用python進行數(shù)據(jù)分析?用python的主觀原因是這門語言簡單易學(xué)好上手,python已成為最受歡迎的動態(tài)編程語言之一。其擁有大量的Web框架,同時擁有一個巨大而且活躍的科學(xué)計算社區(qū)。在數(shù)據(jù)分析和交互、探索性計算和數(shù)據(jù)可視化方面pyhton支持我們可以只使用該語言去構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。
同時python能夠成功的集成C\C++\Fortran程序,大部分現(xiàn)代計算機環(huán)境都利用了Fortran\C庫來實現(xiàn)線性代數(shù)、優(yōu)選、積分、快速傅里葉變換等其他諸如此類的算法。python還支持構(gòu)建生產(chǎn)系統(tǒng),從而能更好的解決兩種語言問題,例如python和java等構(gòu)建出一套完整的系統(tǒng)。
python的劣勢:python是一門解釋型編程語言,因此python的程序在運行時幾乎都會相對于編譯型語言要慢的許多。在微信小程序開發(fā)首頁我也做了說明,在時間比CPU值錢的快速發(fā)展時期,人們自然不愿意花費太多時間在代碼編譯運行時間上。對于高并發(fā)、多線程的應(yīng)用程序而言,python擁有的一個叫做全局解釋器鎖的東西會防止解釋器同時執(zhí)行多條python字節(jié)碼指令機制,因此python并不是一門十分理想的語言。
二、重要的python庫
1.numpy庫
Numpy(Numercial Python)是pyhton科學(xué)計算的基礎(chǔ)包,本欄目大部分都是基于numpy以及構(gòu)建其上的庫,該庫提供了以下功能:
- 快速高效的多維數(shù)組對象ndarray;
- 用于對數(shù)組執(zhí)行元素級計算以及直接對數(shù)組執(zhí)行數(shù)學(xué)運算的函數(shù);
- 用于讀寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具;
- 線性代數(shù)運算、傅里葉變換、以及隨機數(shù)生成;
- 用于將C\C++\Fortran代碼集成到python的工具。
2.pandas
pandas提供了能使我們快速便捷的處理結(jié)構(gòu)化數(shù)據(jù)的大量數(shù)據(jù)結(jié)構(gòu)和函數(shù),是python能成為強大而高效的數(shù)據(jù)分析的重要因素之一。本欄目用的最多的pandas對象是DataFrame,它是一個面向列的二維表結(jié)構(gòu),且含有行標和列標。
3.matplotlib
matplotlib是最流行的用于繪制數(shù)據(jù)圖表的python庫,它非常適合用于繪制出版物上的圖表,它跟ipython結(jié)合的很好,因而提供了一種非常好用的交互式數(shù)據(jù)繪制環(huán)境,繪制的圖表也是交互的。
4.IPython
IPython是python科學(xué)計算標準工具集的組成部分,增強python shell目的是提高編寫、測試、調(diào)試pyhon代碼的速度。它主要用于交互式數(shù)據(jù)處理和利用matplotlib對數(shù)據(jù)進行可視化處理。
5.Scipy
Scipy是一組專門解決科學(xué)計算中各標準問題域的包的集合。主要包括以下:
- scipy.integrate:數(shù)值積分例程和微分方程求解器;
- scipy.linalg:擴展了由numpy.linalg提供的線性代數(shù)歷程和矩陣分解功能;
- scipy.optimize:函數(shù)優(yōu)化器以及根查找算法;
- scipy.signal:信號處理工具;
- scipy.sparse:稀疏矩陣和稀疏線性系統(tǒng)求解器;
- scipy.special:specfun的包裝器;
- scipy.stats:標準連續(xù)和離散概率分布;
- scipy.weave:利用內(nèi)聯(lián)的C++代碼加速數(shù)組計算的工具。
三、python環(huán)境安裝和數(shù)據(jù)分析前的數(shù)據(jù)準備
python的安裝不做詳解,網(wǎng)上有很多教程,建議以后都使用py3版本的環(huán)境,2020年以后將不再對python2做維護。
安裝庫時提供一個集成了python很多科學(xué)計算庫的工具anaconda,下載對應(yīng)的版本運行,就不用一個個裝庫那么麻煩了。當(dāng)然若非windows系統(tǒng)而是linux系統(tǒng)那么就不必大費周章。本欄目使用的數(shù)據(jù)請自行下載:https://download.csdn.net/download/qq_25491201/10595335
總結(jié)
以上是生活随笔為你收集整理的利用python进行数据分析之准备工作(1)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: deepin安装java_Deepin安
- 下一篇: 【OpenCV 例程200篇】42. 图