Python_Dataframe_去除重复数据
生活随笔
收集整理的這篇文章主要介紹了
Python_Dataframe_去除重复数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
去除重復數據——drop_duplicates
去除指定單列或多列中的完全重復的項通過drop_duplicates()函數實現,需要利用Pandas包。
其中:
1、subset=[] 表示整個dataframe基于[]內選定列進行數據重復內容識別,可以添加多列數據進行識別。
????????(1)添加一列列名時表示對選中的單列數據進行重復數據識別,
????????(2)添加多列時則表示識別多列數據同時重復的情況;
2、keep='' 表示對選中的重復數據操作策略,可選擇的參數為'first'、'last'和'False'三種。
????????(1)'first'表示在識別的重復項中保留按照索引順序的第一個內容,其余刪除,
????????(2)'last'表示在識別的重復項中保留按照索引順序的最后一個內容,其余刪除,
????????(3)'False'表示刪除所有重復項;
3、inplace= 表示對處理好的dataframe存儲策略,可選擇參數為False和True
? ? ? ? (1)False表示不對原始數據進行去重工作,例如示例代碼中data1內容不改變,將處理結果賦予data參數中,
? ? ? ? (2)True表示去重工作直接在原始數據中進行操作,例如示例代碼中data1中去重操作會直接在data1中進行,data不會被賦值。
data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)總結
以上是生活随笔為你收集整理的Python_Dataframe_去除重复数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: React爬坑之路二:Router+Re
- 下一篇: 如何将Excel文件转换WPS格式?