當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

玩转pandas取数_下

發布時間：2023/12/16 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了玩转pandas取数_下小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

公眾號：尤而小屋
作者： Peter
編輯：Peter

大家好，我是Peter~

這將是DataFrame數據篩選的最后一篇文章，重點介紹的是3對函數的使用：

iloc和loc，最為重要，經常使用的一對函數
at和iat
any和all

重要學習資料：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html，pandas官網各種例子帶你學習。

擴展閱讀

Pandas取數的方法真的是五花八門，有很多的函數和技巧需要我們去掌握和自己平時積累。之前的2篇文章分別是：

各種騷氣的pandas取數操作-上
五花八門的padans取數操作-中

模擬數據

本文中模擬了兩份數據：

第一份的索引為字符類型
第二份的索引使用的是默認數值型

import pandas as pd import numpy as np # 第一份模擬數據df0df0 = pd.DataFrame([[101, 102, 140], [114, 95, 67], [87, 128, 117]],index=['語文', '數學', '英語'],columns=['小明', '小紅',"小孫"])df0

# 第二份模擬數dfdf = pd.DataFrame({"name":['小明','小王','張菲','關宇','孫小小','王建國','劉蓓'],"sex":['男','女','女','男','女','男','女'],"age":[20,23,18,21,25,21,24],"score":[np.nan,600,550,np.nan,610,580,634], # 缺失兩條數據"address":["廣東省深圳市南山區",np.nan, # 數據缺失"湖南省長沙市雨花區","北京市東城區","廣東省廣州市白云區","湖北省武漢市江夏區","廣東省深圳市龍華區"] })df

iloc和loc

iloc是通過數值來進行篩選，loc是通過屬性或者行索引名來進行篩選

iloc

直接指定數值，取出單行記錄

# 1、使用數值df1 = df.iloc[1] # 單個數值取出的行記錄 df1# 結果 name 小王 sex 女 age 23 score 600.0 address NaN Name: 1, dtype: object

使用冒號表示全部

df1 = df.iloc[1,:] # :冒號表示全部 df1# 結果 name 小王 sex 女 age 23 score 600.0 address NaN Name: 1, dtype: object

還可以使用切片來取數：

df1 = df.iloc[:3] # 取出前3行記錄 df1

取出非連續的多行記錄：

df2 = df.iloc[[1,2,4]] # 取出多行記錄 df2 namesexagescoreaddress124

小王	女	23	600.0	NaN
張菲	女	18	550.0	湖南省長沙市雨花區
孫小小	女	25	610.0	廣東省廣州市白云區

# 2、取出行記錄的部分列屬性df3 = df.iloc[2,0:2] df3# 結果 name 張菲 sex 女 Name: 2, dtype: object # 列方向上使用切片，步長為2df4 = df.iloc[2,0:5:2] df4# 結果 name 張菲 age 18 address 湖南省長沙市雨花區 Name: 2, dtype: object # 行索引為2，列索引號為1 和 3df5 = df.iloc[2,[1,3]] df5# 結果 sex 女 score 550.0 Name: 2, dtype: object # 3、取出具體的值df6 = df.iloc[2,4] df6# 結果 '湖南省長沙市雨花區'

在行和列方向上同時使用切片，還可以指定步長：

# 4、行和列方向同時使用切片df7 = df.iloc[0:4,0:6:2] df7

和原數據進行對比一下：

！！！一個非常有用的方法：np.r_，幫助我們取出非連續的列屬性

# 5、取出不連續的行列數據，使用np.r_df8 = df.iloc[:, np.r_[0,2:4]] df8 nameagescore0123456

小明	20	NaN
小王	23	600.0
張菲	18	550.0
關宇	21	NaN
孫小小	25	610.0
王建國	21	580.0
劉蓓	24	634.0

df9 = df.iloc[np.r_[0,2:4],:] df9 namesexagescoreaddress023

小明	男	20	NaN	廣東省深圳市南山區
張菲	女	18	550.0	湖南省長沙市雨花區
關宇	男	21	NaN	北京市東城區

loc

使用的行索引名或者列屬性直接來取數

# 1、取出單個列df10 = df.loc[:,"name"] df10 0 小明 1 小王 2 張菲 3 關宇 4 孫小小 5 王建國 6 劉蓓 Name: name, dtype: object # 2、取數多個列df11 = df.loc[:,["name","age"]] df11

# 3、使用數值，取出第一行，索引為0df12 = df.loc[0] df12name 小明 sex 男 age 20 score NaN address 廣東省深圳市南山區 Name: 0, dtype: object # 4、取出索引為0，1，3的行記錄，此時列字段是全部保留df13 = df.loc[[0,1,3]] df13

# 使用冒號:，表示全部列，效果同上df14 = df.loc[[0,1,3],:] df14

# 5、取出部分行和部分列df15 = df.loc[[0,1,3],["name","sex","score"]] df15

# 6、!!!使用索引切片：同時包含起止位置df16 = df.loc[0:3] df16

df.loc[:] # 表示所有數據

# 7、列篩選的時候，必須有行元素# 所有行的name和score兩列 df17 = df.loc[:,["name","score"]] df17 namescore0123456

小明	NaN
小王	600.0
張菲	550.0
關宇	NaN
孫小小	610.0
王建國	580.0
劉蓓	634.0

# 所有行的age及后面全部列df18 = df.loc[:,"age":] df18 agescoreaddress0123456

20	NaN	廣東省深圳市南山區
23	600.0	NaN
18	550.0	湖南省長沙市雨花區
21	NaN	北京市東城區
25	610.0	廣東省廣州市白云區
21	580.0	湖北省武漢市江夏區
24	634.0	廣東省深圳市龍華區

# 8、部分行，age及其后面的全部列# 謹記：包含起止位置，這是和python切片不同的地方df19 = df.loc[1:3,"age":] df19 agescoreaddress123

23	600.0	NaN
18	550.0	湖南省長沙市雨花區
21	NaN	北京市東城區

# 9、針對非數值型行索引的取數df20 = df0.loc["語文"] df20 小明 101 小紅 102 小孫 140 Name: 語文, dtype: int64 # 10、注意兩個方括號取出的是DataFrame數據，單個括號是Series型數據df0.loc[["語文"]] 小明小紅小孫語文

101

102

140

df0.loc[["語文","英語"]] 小明小紅小孫語文英語

101	102	140
87	128	117

# 11、取出部分行和列數據df21 = df0.loc[["語文","英語"],"小明"] df21語文 101 英語 87 Name: 小明, dtype: int64 df0.loc[["語文","英語"],["小明","小孫"]] 小明小孫語文英語

101	140
87	117

# 12、直接使用行索引名來取數df0.loc[["語文","英語"]] 小明小紅小孫語文英語

101	102	140
87	128	117

兩者對比

df.loc[[1,2]] namesexagescoreaddress12

小王	女	23	600.0	NaN
張菲	女	18	550.0	湖南省長沙市雨花區

df.iloc[[1,2]] namesexagescoreaddress12

小王	女	23	600.0	NaN
張菲	女	18	550.0	湖南省長沙市雨花區

# 指定我們需要的列屬性名df.loc[[1,2],["name","score"]] namescore12

小王	600.0
張菲	550.0

# 取出第1和2行，0和3列df.iloc[[1,2],np.r_[0,3]] namescore12

小王	600.0
張菲	550.0

at和iat

at

at函數類似于loc，但是at函數取出的僅僅是一個值

df22 = df.at[4,"sex"] df22'女' df.at[2,"name"]'張菲' df0 小明小紅小孫語文數學英語

101	102	140
114	95	67
87	128	117

# 同時指定索引和列名df23 = df0.at['語文','小孫'] df23140 # at、loc連用df.loc[1].at['age']23 df namesexagescoreaddress0123456

小明	男	20	NaN	廣東省深圳市南山區
小王	女	23	600.0	NaN
張菲	女	18	550.0	湖南省長沙市雨花區
關宇	男	21	NaN	北京市東城區
孫小小	女	25	610.0	廣東省廣州市白云區
王建國	男	21	580.0	湖北省武漢市江夏區
劉蓓	女	24	634.0	廣東省深圳市龍華區

# 列名為name的第4個元素 df.name.at[4] '孫小小'

iat

和iloc一樣，僅僅支持對數字索引操作

df24 = df.iat[2,4] df24'湖南省長沙市雨花區' df.loc[2].iat[4]'湖南省長沙市雨花區' df.iloc[2].iat[4]'湖南省長沙市雨花區'

any和all

any：如果至少有一個為True，則為True
all：需要所有結果為True，才會為True

當傳入的axis=1，會按照行進行查詢；axis=0表示按照列查詢

在Series數據的比較

# 兩個False通過any結果為Falsepd.Series([False, False]).any() # False pd.Series([True, False]).any() # True pd.Series([True, False]).all() # False # any：是否跳過空值pd.Series([np.nan]).any() # False pd.Series([np.nan]).any(skipna=False) # True # all：是否跳過空值pd.Series([np.nan]).all() # True pd.Series([np.nan]).all(skipna=False) #True

在DataFrame的比較

df0 小明小紅小孫語文數學英語

101	102	140
114	95	67
87	128	117

# 1、取出待查詢的數據 df0.loc[:,["小明","小紅"]] 小明小紅語文數學英語

101	102
114	95
87	128

# 2、進行比較 df0.loc[:,["小明","小紅"]] >= 100 小明小紅語文數學英語

True	True
True	False
False	True

any

# 3、使用any函數篩選df0[(df0.loc[:,["小明","小紅"]] >= 100).any(1)]

all

只有語文同時滿足3個人都大于100

# 4、使用all函數篩選：只有語文滿足3個人同時大于100df0[(df0.loc[:,["小明","小紅"]] >= 100).all(1)]

總結

本文通過模擬的數據介紹了pandas的3對函數使用。其中loc和iloc函數是十分常用和實用的函數，自己經常會使用。至此，pandas的數據篩選部分已經全部介紹完成。

當然介紹的方法只是pandas豐富取數技巧中的部分，還有很多的函數和方法需要讀者自己平時去學習和積累，希望介紹的方法對大家有所幫助。

從下一篇文章開始，將會介紹Pandas中的各種操作技巧。

總結

以上是生活随笔為你收集整理的玩转pandas取数_下的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：动态切换 web 报表中的统计图类型
下一篇：《管理者必读12篇》：如何做好人员管理？