Python应用实战-用pandas实现数据预处理
數據預處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等,下面使用 pandas 解決這些最常見的預處理任務。
找出異常值常用兩種方法:
-
標準差法:異常值平均值上下1.96個標準差區間以外的值
-
分位數法:小于 1/4分位數減去 1/4和3/4分位數差的1.5倍,大于3/4減去 1/4和3/4分位數差的1.5倍,都為異常值
技能1 :標準差法
import?pandas?as?pddf?=?pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})#?異常值平均值上下1.96個標準差區間以外的值 meangrade?=?df['a'].mean() stdgrade?=?df['a'].std() toprange?=?meangrade?+?stdgrade?*?1.96 botrange?=?meangrade?-?stdgrade?*?1.96#?過濾區間外的值 copydf?=?df copydf?=?copydf.drop(copydf[copydf['a']>?toprange].index) copydf?=?copydf.drop(copydf[copydf['a']<?botrange].index) copydf技能2:分位數法:
q1?=?df['a'].quantile(.25) q3?=?df['a'].quantile(.75) iqr?=?q3-q1 toprange?=?q3?+?iqr?*?1.5 botrange?=?q1?-?iqr?*?1.5copydf?=?df copydf?=?copydf.drop(copydf[copydf['a']>?toprange].index) copydf?=?copydf.drop(copydf[copydf['a']<?botrange].index) copydf技能3:處理空值
np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan
#?axis?0?表示按照行,all?此行所有值都為?nan df.dropna(axis=0,?how='all')技能4:充填空值
空值一般使用某個統計值填充,如平均數、眾數、中位數等,使用函數 fillna:
#?使用a列平均數填充列的空值,inplace?true表示就地填充 df["a"].fillna(df["a"].mean(),?inplace=True)技能5:修復不合適值
假如某門課最高分100,如果出現 -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數值:
df.loc[(df['a']?<?-2,'a')]?=?0 df.loc[(df['a']?>=?100,'a')]?=?100技能6:過濾重復值
過濾某列重復值,使用 drop_duplicated 方法,第一個參數為列名,keep關鍵字等于last:最后一次出現此值行:
df.drop_duplicates(['Names'],?keep='last')技能7:apply 元素級:去掉特殊字符
某列單元格含有特殊字符,如標點符號,使用元素級操作方法 apply 干掉它們:
import?string exclude?=?set(string.punctuation)def?remove_punctuation(x):x?=?''.join(ch?for?ch?in?x?if?ch?not?in?exclude)return?x #?原df Out[26]:?a???????b 0???c,d??edc.rc 1?????3???????3 2??d?ef???????4#?過濾a列標點 In?[27]:?df.a?=?df.a.apply(remove_punctuation)? In?[28]:?df???????????????? Out[28]:?a???????b 0????cd??edc.rc 1?????3???????3 2??d?ef???????4技能8:cut 數據分箱
將百分制分數轉為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:
#?生成20個[0,100]的隨機整數 In?[30]:?a?=?np.random.randint(1,100,20)??????????????????? In?[31]:?a???????????????????????????????????? Out[31]:? array([48,?22,?46,?84,?13,?52,?36,?35,?27,?99,?31,?37,?15,?31,??5,?46,?98,99,?60,?43])#?cut分箱 In?[33]:?pd.cut(a,?[0,60,75,90,100],?labels?=?['D',?'C',?'B',?'A'])????????????? Out[33]:? [D,?D,?D,?B,?D,?...,?D,?A,?A,?D,?D] Length:?20 Categories?(4,?object):?[D?<?C?<?B?<?A]技能9:rank 排名
rank 方法,生成數值排名,ascending 為False,分值越大,排名越靠前:
In?[36]:?df?=?pd.DataFrame({'a':[46,?98,99,?60,?43]}?))? In?[53]:?df['a'].rank(ascending=False)??????????????????? Out[53]:? 0????4.0 1????2.0 2????1.0 3????3.0 4????5.0技能10:category列轉數值
某列取值只可能為有限個枚舉值,往往需要轉為數值,使用get_dummies,或自己定義函數:
pd.get_dummies(df['a'])自定義函數,結合 apply:
def?c2n(x):if?x=='A':return?95if?x=='B':return?80df['a'].apply(c2n)以上結合數據預處理的十個小任務,分別找到對應pandas中的實現。
總結
以上是生活随笔為你收集整理的Python应用实战-用pandas实现数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python应用实战-如何用Pyecha
- 下一篇: Python应用实战-LUX在panda