Python全系列 教程
3567个小节阅读:5929.2k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
在Pandas中,可以使用一些方法来查找和处理重复的数据。
重复数据通常指的是DataFrame中的行或列具有相同的数值
在Pandas中用于查找重复行的方法。它返回一个布尔型的Series,表示每一行是否是重复的
xxxxxxxxxx
df.duplicated(subset=None, keep='first')
subset
:可选参数,用于指定需要考虑的列
keep
:可选参数,用于指定保留哪个重复行
xxxxxxxxxx
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 2], 'B': ['a', 'b', 'c', 'a']})
duplicates = df.duplicated() # 查找重复的行
print(duplicates)
利用査重标识结果直接删除
df[~df.duplicated( )]
xxxxxxxxxx
df[~df.duplicated(['A', 'B'])]
在Pandas中用于删除重复行的方法。它会返回一个新的DataFrame对象,其中不包含重复的行。
xxxxxxxxxx
df.drop_duplicates(subset=None, keep='first', inplace=False)
subset
:可选参数,用于指定需要考虑的列,默认为None,表示考虑所有列。可以传入列名或列名的列表,只有指定的列的数值相同时才被认为是重复行。keep
:可选参数,用于指定保留哪个重复行,默认为'first',表示保留第一个出现的重复行。也可以设置为'last',表示保留最后一个出现的重复行。如果设置为False,则表示删除所有重复行。inplace
:可选参数,表示是否在原DataFrame对象上进行修改,默认为False,即返回一个新的DataFrame对象。xxxxxxxxxx
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 2], 'B': ['a', 'b', 'c', 'a']})
df_dropped = df.drop_duplicates() # 删除重复的行
print(df_dropped)
实时学习反馈
1. Pandas中标识重复行的方法是_____:
A duplicated()
B is_duplicated()
2. Pandas中直接删除重复行的方法是_____:
A drop_duplicates()
B dropna()
答案
1=>A 2=>A