重复值处理

  • 发布日期:2019-11-27
  • 难度:简单
  • 类别:数据预处理、数据集成
  • 标签:Python、数据集成、重复值、去重

1. 问题描述

使用Python第三方库pandas,进行元组去重操作。

2. 程序实现

In [1]:
import pandas as pd
df = pd.DataFrame([[1,2,6],[4,5,6],[1,3,6],[2,4,7],[1,3,6]], columns=['col1','col2','col3'], index=['a','b','c','d','e'])
print(df)
   col1  col2  col3
a     1     2     6
b     4     5     6
c     1     3     6
d     2     4     7
e     1     3     6
In [2]:
# 所有列有重复则删除
print(df.drop_duplicates())
   col1  col2  col3
a     1     2     6
b     4     5     6
c     1     3     6
d     2     4     7
In [3]:
# 某一列有重复则保留第一个重复行,删除后面的重复行
print(df.drop_duplicates(subset='col3',keep='first'))
   col1  col2  col3
a     1     2     6
d     2     4     7
In [4]:
# 某一列有重复则删除所有的重复行
print(df.drop_duplicates(subset='col3',keep=False))
   col1  col2  col3
d     2     4     7
In [ ]: