用Pandas处理较大数据量 - 好文

在一些比赛中，经常会出现原始训练数据就有十几G大小，正常的个人电脑内存根本不足以容纳这么大数据量。查到可以使用Pandas将原数据集划分成小块存储。以下内容转载自
知乎 <https://zhuanlan.zhihu.com/p/38202468>。
user_feat = ['user_id','user_gender_id','user_age_level','user_occupation_id',
'user_star_level'] reader = pd.read_csv("./data/round2_train.txt", sep="\s+"
,iterator=True) chunks = [] loop = True while loop: try: chunk =
reader.get_chunk(500000)[user_feat] chunks.append(chunk) except StopIteration:
loop =False print("Iteration is stopped") df_user = pd.concat(chunks,axis=0,
ignore_index=True) df_user = pd.concat([df_user, test[user_feat]],axis=0)
df_user.drop_duplicates(subset='user_id',keep='first',inplace=True)
df_user.to_csv('./data/user_file.csv',index=False) print('user_file',
df_user.shape)del df_user gc.collect()

« 上一篇：Asp.Net MVC Mobile移动端开发小叙
» 下一篇：受欢迎的五个开源可视化工具——你的选择是？

热门工具换一换

1 进制转换
2 GIF生成器
3 时间戳转换器
4 Cron表达式生成器
5 计算器
6 身份证归属地、性别、出生日期、年龄查询
7 衣服尺码计算
8 文本对比
9 图像颜色识别
10 图像文字识别
11 Base64编码解码
12 日期计算器
13 人脸识别
14 照片转素描
15 摩斯电码
16 颜色选择器
17 端口扫描器
18 卡通头像制作
19 图像转Base64
20 单位换算