ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
生活随笔
收集整理的這篇文章主要介紹了
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
ML之FE:數據隨機抽樣之利用pandas的sample函數對超大樣本的數據集進行隨機采樣,并另存為csv文件
?
?
?
目錄
數據隨機抽樣之利用pandas的sample函數對超大樣本的數據集進行隨機采樣,并另存為csv文件
輸出結果
實現代碼
?
?
?
數據隨機抽樣之利用pandas的sample函數對超大樣本的數據集進行隨機采樣,并另存為csv文件
輸出結果
name object ID object age object sex object hobbey object dtype: objectname ID age sex hobbey 0 Bob 1 NaN 男 打籃球 1 LiSa 2 28 女 打羽毛球 2 Mary 38 女 打乒乓球 3 Alan None None ----------------------------------------- 輸出數據形狀: (3, 6) 導出數據成功!0 1 2 3 4 5 1 0.0 Bob 1 NaN 男 打籃球 3 2.0 Mary 38 女 打乒乓球 4 3.0 Alan NaN NaN NaN NaN?
?
實現代碼
import pandas as pd import numpy as npcontents={"name": ['Bob', 'LiSa', 'Mary', 'Alan'],"ID": [1, 2, ' ', None], # 輸出 NaN"age": [np.nan, 28, 38 , '' ], # 輸出 # "born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 輸出 NaT"sex": ['男', '女', '女', None,], # 輸出 None"hobbey":['打籃球', '打羽毛球', '打乒乓球', '',], # 輸出 } data_frame = pd.DataFrame(contents) data_frame.to_excel("data_Frame.xls") print(data_frame.dtypes) print(data_frame) print('-----------------------------------------') data_frame_temp=data_frame.copy()file_path_in='data_Frame.xls' file_path_out='data_Frame_Sampling.xls' # ML之FE:數據隨機抽樣之利用pandas的sample函數對超大樣本的數據集進行隨機采樣,并另存為csv文件import pandas as pd data_all = pd.read_excel(file_path_in, header=None) # 取消讀取csv或txt時默認第一行為列名 data_all_Sampling=data_all.sample(n=3,random_state=123) # 隨機選取100行數據 n=100,或者隨機選取20%的數據 frac=0.2 print("輸出數據形狀:",data_all_Sampling.shape) data_all_Sampling.to_csv(file_path_out) print('導出數據成功!') print(data_all_Sampling)?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Py之pandas:利用pandas工具
- 下一篇: Python编程语言学习:两行代码输出根