【Python基础】在pandas中使用pipe()提升代码可读性
1 簡介
我們在利用pandas開展數據分析時,應盡量避免過于「碎片化」的組織代碼,尤其是創建出過多不必要的「中間變量」,既浪費了「內存」,又帶來了關于變量命名的麻煩,更不利于整體分析過程代碼的可讀性,因此以流水線方式組織代碼非常有必要。
圖1而在以前我撰寫的一些文章中,為大家介紹過pandas中的eval()和query()這兩個幫助我們鏈式書寫代碼,搭建數據分析工作流的實用API,再加上下面要介紹的pipe(),我們就可以將任意pandas代碼完美組織成流水線形式。
2 在pandas中靈活利用pipe()
pipe()顧名思義,就是專門用于對Series和DataFrame操作進行流水線(pipeline)改造的API,其作用是將嵌套的函數調用過程改造為「鏈式」過程,其第一個參數func傳入作用于對應Series或DataFrame的函數。
具體來說pipe()有兩種使用方式,「第一種方式」下,傳入函數對應的第一個位置上的參數必須是目標Series或DataFrame,其他相關的參數使用常規的「鍵值對」方式傳入即可,就像下面的例子一樣,我們自編函數對「泰坦尼克數據集」進行一些基礎的特征工程處理:
import?pandas?as?pdtrain?=?pd.read_csv('train.csv')def?do_something(data,?dummy_columns):'''自編示例函數'''data?=?(pd#?對指定列生成啞變量.get_dummies(data,?#?先刪除data中指定列columns=dummy_columns,drop_first=True))return?data#?鏈式流水線 (train#?將Pclass列轉換為字符型以便之后的啞變量處理.eval('Pclass=Pclass.astype("str")',?engine='python')#?刪除指定列.drop(columns=['PassengerId',?'Name',?'Cabin',?'Ticket'])#?利用pipe以鏈式的方式調用自編函數.pipe(do_something,?dummy_columns=['Pclass',?'Sex',?'Embarked'])#?刪除含有缺失值的行.dropna() )可以看到,在緊接著drop()下一步的pipe()中,我們將自編函數作為其第一個參數傳入,從而將一系列操作巧妙地嵌入到鏈式過程中。
「第二種使用方式」適合目標Series和DataFrame不為傳入函數第一個參數的情況,譬如下面的例子中我們假設目標輸入數據為第二個參數data2,則pipe()的第一個參數應以(函數名, '參數名稱')的格式傳入:
def?do_something(data1,?data2,?axis):'''自編示例函數'''data?=?(pd.concat([data1,?data2],?axis=axis))return?data#?pipe()第二種使用方式 (train.pipe((do_something,?'data2'),?data1=train,?axis=0) )在這樣的設計下我們可以避免很多函數嵌套調用方式,隨心所欲地優化我們的代碼~
以上就是本文的全部內容,歡迎在評論區與我進行討論~
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 獲取一折本站知識星球優惠券,復制鏈接直接打開: https://t.zsxq.com/y7uvZF6 本站qq群704220115。加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【Python基础】在pandas中使用pipe()提升代码可读性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 刷了三遍面试题仍拿不到offer?如何掌
- 下一篇: 【NLP】图解 Attention完整版