pandas中关于DataFrame去掉重复行和NaN行 - 好文

1.去掉重复行

使用pandas自带的drop_duplicates方法：
norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉UNIT_ID和KPI_ID列中重复的行，并保留重复出现的行中第一次出现的行
补充：
当keep=False时，就是去掉所有的重复行
当keep=‘first’时，就是保留第一次出现的重复行
当keep=’last’时就是保留最后一次出现的重复行。
（注意，这里的参数是字符串，要加引号！！！）

2.去掉NaN行

使用pandas自带的dropna()方法：
#删除表中某行全部为NaN的行 nonan_df = df.dropna(axis=0, how='all') #删除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')
补充：
删除行的参数axis = 0
删除列的参数axis = 1

« 上一篇：线性拟合
» 下一篇：为什么要重写hashcode和equals方法？初级程序员在面试中很少能说清楚。

热门工具换一换

1 进制转换
2 GIF生成器
3 时间戳转换器
4 Cron表达式生成器
5 计算器
6 衣服尺码计算
7 身份证归属地、性别、出生日期、年龄查询
8 文本对比
9 图像颜色识别
10 图像文字识别
11 Base64编码解码
12 日期计算器
13 人脸识别
14 照片转素描
15 摩斯电码
16 颜色选择器
17 端口扫描器
18 卡通头像制作
19 图像转Base64
20 证件照换底色