2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器
在繼上一次給大家推薦了兩個(gè)數(shù)據(jù)分析工具之后:
推薦2個(gè)十分好用的pandas數(shù)據(jù)探索分析神器!
今天小編繼續(xù)來給大家介紹一款用于做EDA(探索性數(shù)據(jù)分析)的利器,并且可以自動(dòng)生成代碼,幫助大家極大節(jié)省工作時(shí)間與提升工作效率的利器,叫做Bamboolib。
大家可以將其理解為是Pandas的GUI擴(kuò)展工具,所具備的功能有
查看DataFrame數(shù)據(jù)集與Series數(shù)據(jù)集
過濾數(shù)據(jù)
數(shù)據(jù)的統(tǒng)計(jì)分析
繪制交互式圖表
文本數(shù)據(jù)的操作
數(shù)據(jù)清洗與類型轉(zhuǎn)換
合并數(shù)據(jù)集
安裝模塊
在使用之前,我們先需要通過pip install進(jìn)行該模塊的安裝
pip?install?bamboolib同時(shí)因?yàn)槲覀円贘upyter Notebook以及JupyterLab上面用到該工具,因此還要安裝額外的插件
#?Jupyter?Notebook?extensions python?-m?bamboolib?install_nbextensions#?JupyterLab?extensions python?-m?bamboolib?install_labextensions查看DataFrame數(shù)據(jù)集
在上面的步驟全都完成之后,我們開始簡(jiǎn)單的來嘗試使用一下bamboolib,導(dǎo)入我們需要用到的模塊
import?bamboolib?as?bam import?pandas?as?pd讀取數(shù)據(jù)
df?=?pd.read_excel(io="supermarkt_sales.xlsx",engine="openpyxl",sheet_name="Sales",skiprows=3,usecols="B:R",nrows=1000, )df會(huì)彈出如下所示的界面,
我們先來簡(jiǎn)單介紹一下界面上的各個(gè)按鈕,
Explore DataFrame:對(duì)數(shù)據(jù)集進(jìn)行探索性分析的按鈕
Create plot: 繪制交互性圖表的按鈕
Search Transformations:包含對(duì)數(shù)據(jù)集進(jìn)行各項(xiàng)操作
Update: 過濾出指定的列
Export: 可以將處理完的數(shù)據(jù)集以及代碼導(dǎo)出
我們點(diǎn)擊Explore DataFrame按鈕來對(duì)數(shù)據(jù)先來一個(gè)大致的印象
我們看到會(huì)對(duì)數(shù)據(jù)集有一個(gè)大致的介紹,例如數(shù)據(jù)集是有1000行、18列,然后每一列的數(shù)據(jù)類型、每一列有多少的唯一值和缺失值我們都可以直觀的看到
要是我們想要查看有著連續(xù)型變量的特征,它們之間的相關(guān)性,可以點(diǎn)擊Correlation Matrix按鈕
過濾數(shù)據(jù)
要是我們想要指定某一列數(shù)據(jù)的話,點(diǎn)擊下拉框,選中select or drop columns,
或者我們想要?jiǎng)h掉某一列的話,也是相類似的操作
當(dāng)然我們?nèi)绻胍鶕?jù)特定的條件來過濾出某些數(shù)據(jù)的話,則是選中filter rows按鈕,然后我們給出特定的條件,在Bamboolib模塊當(dāng)中有多種方式來過濾數(shù)據(jù),有has values、contains、startswith、endswith等等,類似于Pandas模塊當(dāng)中對(duì)于文本數(shù)據(jù)處理的方法,例如我們想要挑選出“省份”這一列當(dāng)中的“浙江省”的數(shù)據(jù),就這么來做
我們還能夠?qū)γ啃械臄?shù)據(jù)進(jìn)行排列,點(diǎn)擊下拉框選中sort rows,例如我們以“毛利率”的大小來排序,并且是降序排序,就這么來做
要是我們想要對(duì)某一列的列名進(jìn)行重命名,點(diǎn)擊rename columns
數(shù)據(jù)的清洗與類型轉(zhuǎn)換
我們能夠改變數(shù)據(jù)集當(dāng)中某一列的數(shù)據(jù)類型,點(diǎn)擊選中change column data dtype
對(duì)于缺失值的情況,我們既可以選擇去除掉這些缺失值,點(diǎn)擊選中drop missing values或者是drop columns with missing values
當(dāng)然可以將這些缺失值替代為其他特定的值,無論是平均值或者是眾數(shù)等等,點(diǎn)擊選中find and replace missing values
數(shù)據(jù)的統(tǒng)計(jì)分析
我們可以通過bamboolib模塊來對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,例如計(jì)算數(shù)值的變化(percent change),我們?cè)谙吕蛑姓业絧ercent change的選項(xiàng),然后對(duì)指定的列計(jì)算當(dāng)中數(shù)值的變化百分比
我們還能夠進(jìn)行累乘/累加的操作,我們?cè)谙吕蛑羞x中cumulative product或者是cumulative sum
另外我們還能進(jìn)行分組統(tǒng)計(jì)的計(jì)算操作,選中下拉框當(dāng)中的group by and aggregate按鈕,例如我們以“省份”來分組,計(jì)算“總收入”的平均值,可以這么來操作
合并數(shù)據(jù)集
要是我們想要進(jìn)行合并數(shù)據(jù)集的操作,在下拉框選中join/merge dataframes選項(xiàng),當(dāng)中有四種合并的方式,分別是inner join、left join、right join和outer join,然后我們選擇合并的
文本數(shù)據(jù)的操作
我們還能對(duì)數(shù)據(jù)集當(dāng)中的文本數(shù)據(jù)進(jìn)行各種操作,包括對(duì)英文字母大小寫的轉(zhuǎn)換,就用convert to lowercase/convert to uppercase
如果我們需要對(duì)字符串當(dāng)中的空格做一個(gè)處理,我們?cè)谙吕虍?dāng)中選中Remove leading and trailing whitespaces
而要是我們需要對(duì)字符串做一個(gè)分割,就在下拉框中選中split text column
繪制交互式的圖表
我們同時(shí)還能夠通過該模塊來繪制交互式的圖表,我們點(diǎn)擊“create plot”按鈕,我們能看到在圖表類型當(dāng)中有直方圖、柱狀圖、折線圖、餅圖等十來種,我們來繪制當(dāng)中的一種
我們?cè)赬軸上指定的是“省份”的數(shù)據(jù),然后根據(jù)不同的商品類型配上不同的顏色,而從繪制出來的結(jié)果中能夠看到來自“北京”的顧客“食品飲料”購(gòu)買的比較多,而來“浙江”的顧客“服裝服飾”購(gòu)買的比較多
當(dāng)然除了直方圖之外,還有其他很多種圖表可以通過該模塊來繪制,這里由于篇幅有限,小編就不一一給大家演示。
END
各位伙伴們好,詹帥本帥搭建了一個(gè)個(gè)人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請(qǐng)移步小程序體驗(yàn)一下哦!(歡迎提建議)推薦閱讀
牛逼!Python常用數(shù)據(jù)類型的基本操作(長(zhǎng)文系列第①篇)
牛逼!Python的判斷、循環(huán)和各種表達(dá)式(長(zhǎng)文系列第②篇)
牛逼!Python函數(shù)和文件操作(長(zhǎng)文系列第③篇)
牛逼!Python錯(cuò)誤、異常和模塊(長(zhǎng)文系列第④篇)
總結(jié)
以上是生活随笔為你收集整理的2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 属实逼真,决策树可视化!
- 下一篇: 肝!十大 Python 机器学习库