dataframe sample 采样,抽样
20220324
https://blog.csdn.net/DSTJWJW/article/details/90667570
不重復隨機抽樣
20211223
# 讀取數(shù)據(jù)集
test_data_all = pd.read_csv(PATH+'data_format1/test_format1.csv',chunksize=200000)for i,j in enumerate(test_data_all):if i == 0:test_data = jtrain_data_all = pd.read_csv(PATH+'data_format1/train_format1.csv',chunksize=1000000)for i,j in enumerate(train_data_all):if i == 0:train_data = j
抽樣讀取數(shù)據(jù)def read_csv(file_name, num_rows):return pd.read_csv(file_name, nrows=num_rows)居然可以直接抽樣讀取
20211010
無論是什么平臺,用戶的活躍度分布都是一個長尾分布,越活躍的用戶對應的人數(shù)越少,但是其所占的行為越多。這種情況下,如果不考慮用戶活躍度去篩選正負樣本,難免活躍用戶所占的權(quán)重就會增大,此時有效的解決辦法是針對每個用戶提取相同的正負樣本。
采樣要注意保持和原來的分布一樣?
pandas.DataFrame.sample 隨機選取若干行
1?? ?數(shù)據(jù)切片選取
1.1?? ?pandas.DataFrame.sample 隨機選取若干行
1.1.1?? ? 功能說明
???????????? 有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進行隨機的抽樣。pandas中自帶有抽樣的方法。
功能相似:numpy.random.choice
??? Generates a random sample from a given 1-D numpy array.
1.1.2?? ? 使用說明
1.?? ?函數(shù)名及功能
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]
2.?? ?輸入?yún)?shù)說明
| 參數(shù)名稱 | 參數(shù)說明 | 舉例說明 |
| n | 要抽取的行數(shù) | df.sample(n=3,random_state=1) |
| frac | 抽取行的比例 | df.sample(frac=0.8, replace=True, random_state=1) |
| replace | 是否為有放回抽樣, | True:取行數(shù)據(jù)后,可以重復放回后再取 ? |
| weights | 字符索引或概率數(shù)組 axis=0:為行字符索引或概率數(shù)組 | ? |
| random_state | int: 隨機數(shù)發(fā)生器種子 | random_state=None,取得數(shù)據(jù)不重復 ? |
| axis | 選擇抽取數(shù)據(jù)的行還是列 | 也就是說axis=1時,在列中隨機抽取n列,在axis=0時,在行中隨機抽取n行。 |
3.?? ?返回值說明
返回選擇的N行元素的DataFrame對象。
總結(jié)
以上是生活随笔為你收集整理的dataframe sample 采样,抽样的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 抽样方法,采样方法 shuffle
- 下一篇: 日志处理logger