當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

r语言去除双引号_tidyfst vs pandas（12）：去除重复条目

發(fā)布時間：2024/4/19 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 r语言去除双引号_tidyfst vs pandas（12）：去除重复条目小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：黃天元，復(fù)旦大學(xué)博士在讀，熱愛數(shù)據(jù)科學(xué)與開源工具（R），致力于利用數(shù)據(jù)科學(xué)迅速積累行業(yè)經(jīng)驗優(yōu)勢和科學(xué)知識發(fā)現(xiàn)，涉獵內(nèi)容包括但不限于信息計量、機器學(xué)習(xí)、數(shù)據(jù)可視化、應(yīng)用統(tǒng)計建模、知識圖譜等，著有《R語言高效數(shù)據(jù)處理指南》（《R語言數(shù)據(jù)高效處理指南》(黃天元)【摘要書評試讀】- 京東圖書）。知乎專欄：R語言數(shù)據(jù)挖掘。郵箱：huang.tian-yuan@qq.com.歡迎合作交流。

去除重復(fù)條目，一般是指去除一個向量或數(shù)據(jù)框中重復(fù)的部分，只保留它出現(xiàn)第一次的條目。

Python:

import pandas as pd df = pd.read_csv('data/table.csv',index_col='ID')df.duplicated('Class').head() df.duplicated('Class',keep='last').tail() df.duplicated('Class',keep=False).head()df.drop_duplicates('Class') df.drop_duplicates('Class',keep='last') df.drop_duplicates(['School','Class'])

library(tidyfst) fread("data/table.csv") -> dfduplicated(df,by = "Class") %>% head() duplicated(df,by = "Class",fromLast = T) %>% taildf %>% distinct_dt(Class,.keep_all = T) df %>% unique(by = "Class",fromLast = T) df %>% distinct_dt(School,Class,.keep_all = T)

這個功能在實現(xiàn)上，兩個工具大同小異。不過duplicated和unique都是data.table中的內(nèi)生函數(shù)，學(xué)到了新東西。可以考慮給distinct_dt加上fromLast參數(shù)，來從數(shù)據(jù)框尾部開始去除重復(fù)值，保留其出現(xiàn)最后一次的條目。

往期提要：

HopeR：tidyfst vs pandas（0）：環(huán)境配置

HopeR：tidyfst vs pandas（1）：csv文件讀寫

HopeR：tidyfst vs pandas（2）：數(shù)據(jù)文件讀寫

HopeR：tidyfst vs pandas（3）：向量（序列）的使用

HopeR：tidyfst vs pandas（4）：數(shù)據(jù)框的使用

HopeR：tidyfst vs pandas（5）：基本函數(shù)實現(xiàn)

HopeR：tidyfst vs pandas（6）：排序

HopeR：tidyfst vs pandas（7）：索引-loc方法

HopeR：tidyfst vs pandas（8）：索引-iloc方法

HopeR：tidyfst vs pandas（9）：索引-`[`方法

HopeR：tidyfst vs pandas（10）：索引-條件篩選（布爾索引）

HopeR：tidyfst vs pandas（11）：索引-快速標(biāo)量索引

總結(jié)

以上是生活随笔為你收集整理的r语言去除双引号_tidyfst vs pandas（12）：去除重复条目的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：怎么查看python是否安装好了pyin
下一篇： mount: 未知的文件系统类型“vbo

编程问答

r语言 去除双引号_tidyfst vs pandas（12）：去除重复条目

總結(jié)

r语言去除双引号_tidyfst vs pandas（12）：去除重复条目