ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件-阿里云开发者社区

输出结果

name object

ID object

age object

sex object

hobbey object

dtype: object

name ID age sex hobbey

0 Bob 1 NaN 男打篮球

1 LiSa 2 28 女打羽毛球

2 Mary 38 女打乒乓球

3 Alan None None

-----------------------------------------

输出数据形状： (3, 6)

导出数据成功！

0 1 2 3 4 5

1 0.0 Bob 1 NaN 男打篮球

3 2.0 Mary 38 女打乒乓球

4 3.0 Alan NaN NaN NaN NaN

实现代码

import pandas as pd

import numpy as np

contents={"name": ['Bob', 'LiSa', 'Mary', 'Alan'],

"ID": [1, 2, ' ', None], # 输出 NaN

"age": [np.nan, 28, 38 , '' ], # 输出

# "born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 输出 NaT

"sex": ['男', '女', '女', None,], # 输出 None

"hobbey":['打篮球', '打羽毛球', '打乒乓球', '',], # 输出

}

data_frame = pd.DataFrame(contents)

data_frame.to_excel("data_Frame.xls")

print(data_frame.dtypes)

print(data_frame)

print('-----------------------------------------')

data_frame_temp=data_frame.copy()

file_path_in='data_Frame.xls'

file_path_out='data_Frame_Sampling.xls'

# ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

import pandas as pd

data_all = pd.read_excel(file_path_in, header=None) # 取消读取csv或txt时默认第一行为列名

data_all_Sampling=data_all.sample(n=3,random_state=123) # 随机选取100行数据 n=100，或者随机选取20%的数据 frac=0.2

print("输出数据形状：",data_all_Sampling.shape)

data_all_Sampling.to_csv(file_path_out)

print('导出数据成功！')

print(data_all_Sampling)

DayDayUp：7月25日，如何打造技术品牌影响力？顶级大咖独家传授—阿里云乘风者计划专家博主&CSDN TOP1“一个处女座程序猿”《我是如何通过写作成为百万粉丝博主的？》演讲全文回顾 AI：AI与爱无处不在，大赛与奖金齐飞—【科大讯飞】AI开发者大赛—与你在AI盛会中遨游！成功解决AttributeError: module 'cv2.cv2' has no attribute 'CV_CAP_PROP_FPS'和 'CV_CAP_PROP_FRAME_WIDTH' 成功解决ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). CV之FD：基于dlib、cv2库利用warpPerspective函数和_68_face_landmarks文件实现AI换脸渐变融合视频效果 modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案）

modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案）

pandas读excel类型文件报错: xlrd.biffh.XLRDError: Excel xlsx file； not supported