推荐2个十分好用的pandas数据探索分析神器!
今天小編給大家推薦兩款超好用的工具來對(duì)數(shù)據(jù)進(jìn)行探索分析。更好地幫助數(shù)據(jù)分析師從數(shù)據(jù)集當(dāng)中來挖掘出有用的信息
PandasGUI
一聽到這個(gè)名字,大家想必就會(huì)知道這個(gè)工具是在Pandas的基礎(chǔ)之上加了GUI界面,它所具備的主要功能有:
查看DataFrame數(shù)據(jù)集與Series數(shù)據(jù)集
交互式地繪制圖表
過濾數(shù)據(jù)
統(tǒng)計(jì)分析
數(shù)據(jù)的修改與復(fù)制粘貼
拖放導(dǎo)入csv文件
搜索工具欄
當(dāng)然在使用之前,我們先要安裝好該工具
pip?install?pandasgui然后我們導(dǎo)入該工具,并且用它來查看某個(gè)數(shù)據(jù)集,代碼如下
import?pandas?as?pd from?pandasgui?import?showdf?=?pd.read_excel(io=r'supermarkt_sales.xlsx',engine="openpyxl",?sheet_name="Sales",skiprows=3,?usecols="B:R",nrows=1000 )show(df)運(yùn)行上述的代碼之后會(huì)彈出一個(gè)GUI界面
我們先來看一下彈出的頁面當(dāng)中的布局,最左邊是數(shù)據(jù)集的形狀,比方說1000*17,具體看下圖
過濾數(shù)據(jù)
數(shù)據(jù)過濾時(shí)候,我們需要填入相應(yīng)的條件,主要是在中間這一列中輸入,例如我們想要篩選出來的數(shù)據(jù)需要滿足
省份:浙江
顧客類型:會(huì)員
性別:男性
以上這幾個(gè)條件,我們可以這么來做,在filter這一列當(dāng)中依次輸入篩選的條件,如下圖
數(shù)據(jù)的修改與復(fù)制粘貼
同時(shí)我們還可以修改當(dāng)中的數(shù)據(jù)
以及將里面的數(shù)據(jù)復(fù)制/粘貼出來
數(shù)據(jù)的統(tǒng)計(jì)分析
在PandasGUI這個(gè)工具當(dāng)中,我們還能夠?qū)?shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,切換到Statistics選項(xiàng)當(dāng)中就能夠看到
當(dāng)中的統(tǒng)計(jì)變量有“平均值”、“最大/最小值”和“標(biāo)準(zhǔn)差”,包括每一個(gè)變量的數(shù)據(jù)類型也在當(dāng)中有展示出來
繪制交互式圖表
我們還能夠在上面繪制交互之圖表,支持的圖表類型有柱狀圖、散點(diǎn)圖、折線圖、餅圖等等
例如柱狀圖,我們看到有x軸和y軸,我們只需要將相對(duì)應(yīng)的列拖拽到x軸或者是y軸即可
數(shù)據(jù)集的變形
在Reshaper這個(gè)選項(xiàng)當(dāng)中,我們可以將現(xiàn)有的數(shù)據(jù)集與其他的數(shù)據(jù)集合并,和pandas當(dāng)中的merge()方法一樣,同時(shí)我們也能制作透視表,和pandas當(dāng)中的pivot_table()方法一樣
當(dāng)然我們還可以將以上的操作轉(zhuǎn)換成代碼的形式,通過點(diǎn)擊Code Export這個(gè)按鈕
支持csv文件的導(dǎo)入與導(dǎo)出
同時(shí)這里還支持csv文件的導(dǎo)入與導(dǎo)出,讓我們更加快捷的操作數(shù)據(jù)集
Jupyter當(dāng)中的小插件
下面小編給大家介紹一個(gè)在Jupyter當(dāng)中使用的小插件名叫ipympl,能夠使得matplotlib繪制出來的圖表也能夠具備交互性的特征,當(dāng)然在使用之前,我們先要安裝上該插件
通過pip來安裝
pip?install?ipympl也可以通過conda來進(jìn)行安裝
conda?install?-c?conda-forge?ipympl然后涉及到具體的使用,我們導(dǎo)入相關(guān)的模塊
%matplotlib?widget import?pandas?as?pd import?matplotlib.pyplot?as?plt我們使用常用的iris.csv來進(jìn)行圖表的繪制
plt.scatter('sepal_length(cm)',?'petal_width(cm)',?data=iris) plt.xlabel('Sepal?Length') plt.ylabel('Petal?Width') plt.show()output
從上面的結(jié)果來看,繪制出來的圖表具備交互性,并且可以任意我們放大、縮小以及拖拽,并且可以將繪制好的圖表下載到本地,而針對(duì)具有多個(gè)子圖的圖表,也能夠?qū)崿F(xiàn)交互式的繪制
np.random.seed(0)n_bins?=?20 x?=?np.random.randn(1000,?3)fig,?axes?=?plt.subplots(nrows=2,?ncols=2) ax0,?ax1,?ax2,?ax3?=?axes.flatten()colors?=?['red',?'blue',?'yellow'] ax0.hist(x,?n_bins,?density=1,?histtype='bar',?color=colors,?label=colors) ax0.legend(prop={'size':?10}) ax0.set_title('bars?with?legend')ax1.hist(x,?n_bins,?density=1,?histtype='bar',?stacked=True,?color=colors) ax1.set_title('stacked?bar')ax2.hist(x,?n_bins,?histtype='step',?stacked=True,?fill=False) ax2.set_title('stack?step?(unfilled)')x_multi?=?[np.random.randn(n)?for?n?in?[10000,?5000,?2000]] ax3.hist(x_multi,?n_bins,?histtype='bar',?color=colors) ax3.set_title('different?sample?sizes')fig.tight_layout() plt.show()output
各位伙伴們好,詹帥本帥搭建了一個(gè)個(gè)人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請(qǐng)移步小程序體驗(yàn)一下哦!(歡迎提建議)
推薦閱讀
牛逼!Python常用數(shù)據(jù)類型的基本操作(長文系列第①篇)
牛逼!Python的判斷、循環(huán)和各種表達(dá)式(長文系列第②篇)
牛逼!Python函數(shù)和文件操作(長文系列第③篇)
牛逼!Python錯(cuò)誤、異常和模塊(長文系列第④篇)
總結(jié)
以上是生活随笔為你收集整理的推荐2个十分好用的pandas数据探索分析神器!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何一条命令,榨干机器的所有内存?
- 下一篇: Python + Steamlit 快速