當前位置：首頁 > 编程语言 > python >内容正文

python

Python应用实战-用pandas实现数据预处理

發布時間：2023/12/2 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python应用实战-用pandas实现数据预处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據預處理常用的處理步驟，包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等，下面使用 pandas 解決這些最常見的預處理任務。

找出異常值常用兩種方法：

標準差法：異常值平均值上下1.96個標準差區間以外的值
分位數法：小于 1/4分位數減去 1/4和3/4分位數差的1.5倍，大于3/4減去 1/4和3/4分位數差的1.5倍，都為異常值

技能1 ：標準差法

import?pandas?as?pddf?=?pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})#?異常值平均值上下1.96個標準差區間以外的值 meangrade?=?df['a'].mean() stdgrade?=?df['a'].std() toprange?=?meangrade?+?stdgrade?*?1.96 botrange?=?meangrade?-?stdgrade?*?1.96#?過濾區間外的值 copydf?=?df copydf?=?copydf.drop(copydf[copydf['a']>?toprange].index) copydf?=?copydf.drop(copydf[copydf['a']<?botrange].index) copydf

技能2：分位數法：

q1?=?df['a'].quantile(.25) q3?=?df['a'].quantile(.75) iqr?=?q3-q1 toprange?=?q3?+?iqr?*?1.5 botrange?=?q1?-?iqr?*?1.5copydf?=?df copydf?=?copydf.drop(copydf[copydf['a']>?toprange].index) copydf?=?copydf.drop(copydf[copydf['a']<?botrange].index) copydf

技能3：處理空值

np.nan 是 pandas 中常見空值，使用 dropna 過濾空值，axis 0 表示按照行，1 表示按列，how 默認為 any ，意思是只要有一個 nan 就過濾某行或某列，all 所有都為 nan

#?axis?0?表示按照行，all?此行所有值都為?nan df.dropna(axis=0,?how='all')

技能4：充填空值

空值一般使用某個統計值填充，如平均數、眾數、中位數等，使用函數 fillna:

#?使用a列平均數填充列的空值，inplace?true表示就地填充 df["a"].fillna(df["a"].mean(),?inplace=True)

技能5：修復不合適值

假如某門課最高分100，如果出現 -2， 120 這樣的值，顯然不合理，使用布爾類型的Series對象修改數值：

df.loc[(df['a']?<?-2,'a')]?=?0 df.loc[(df['a']?>=?100,'a')]?=?100

技能6：過濾重復值

過濾某列重復值，使用 drop_duplicated 方法，第一個參數為列名，keep關鍵字等于last：最后一次出現此值行：

df.drop_duplicates(['Names'],?keep='last')

技能7：apply 元素級：去掉特殊字符

某列單元格含有特殊字符，如標點符號，使用元素級操作方法 apply 干掉它們：

import?string exclude?=?set(string.punctuation)def?remove_punctuation(x):x?=?''.join(ch?for?ch?in?x?if?ch?not?in?exclude)return?x #?原df Out[26]:?a???????b 0???c,d??edc.rc 1?????3???????3 2??d?ef???????4#?過濾a列標點 In?[27]:?df.a?=?df.a.apply(remove_punctuation)? In?[28]:?df???????????????? Out[28]:?a???????b 0????cd??edc.rc 1?????3???????3 2??d?ef???????4

技能8：cut 數據分箱

將百分制分數轉為A,B,C,D四個等級，bins 被分為 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

#?生成20個[0,100]的隨機整數 In?[30]:?a?=?np.random.randint(1,100,20)??????????????????? In?[31]:?a???????????????????????????????????? Out[31]:? array([48,?22,?46,?84,?13,?52,?36,?35,?27,?99,?31,?37,?15,?31,??5,?46,?98,99,?60,?43])#?cut分箱 In?[33]:?pd.cut(a,?[0,60,75,90,100],?labels?=?['D',?'C',?'B',?'A'])????????????? Out[33]:? [D,?D,?D,?B,?D,?...,?D,?A,?A,?D,?D] Length:?20 Categories?(4,?object):?[D?<?C?<?B?<?A]

技能9：rank 排名

rank 方法，生成數值排名，ascending 為False，分值越大，排名越靠前：

In?[36]:?df?=?pd.DataFrame({'a':[46,?98,99,?60,?43]}?))? In?[53]:?df['a'].rank(ascending=False)??????????????????? Out[53]:? 0????4.0 1????2.0 2????1.0 3????3.0 4????5.0

技能10：category列轉數值

某列取值只可能為有限個枚舉值，往往需要轉為數值，使用get_dummies，或自己定義函數：

pd.get_dummies(df['a'])

自定義函數，結合 apply:

def?c2n(x):if?x=='A':return?95if?x=='B':return?80df['a'].apply(c2n)

以上結合數據預處理的十個小任務，分別找到對應pandas中的實現。

總結

以上是生活随笔為你收集整理的Python应用实战-用pandas实现数据预处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python应用实战-如何用Pyecha
下一篇： Python应用实战-LUX在panda