数据结构论坛

注册

 

发新话题 回复该主题

python如何处理重复值数据 [复制链接]

1#
北京看白癜风好专科 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/
一起学习,一起成长!

前言

在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值数据有着重要的意义和作用。

目前市场上很多数据分析或数据挖掘类的工具,比如:SPSS、SAS、python等。虽然重复值数据对数据分析或数据挖掘有重要影响,但并不是强制性,或者说并不是所有情况下都要对重复值数据进行处理。所以,重复值数据的处理是选择性的。

接下里,小编将介绍如何使用基于python开发语言的pandas函数,处理重复值的数据。

虽然许多pandas函数(如reindex)都要求标签唯一,但这并不是强制性的。

Series数据结构的重复值数据处理

首先,小编先带着大家一起创建一个带有重复索引值的Series:

In[5]bj=Series(range(5),index=[a,a,b,b,c])

In[6]bj

Out[6]/p>

a0

a1

b2

b3

c4

dtype:int32

其次,使用“is_unique”判断是否唯一:

In[7]bj.index.is_unique

Out[7]:False

In[8]bj[a]

Out[8]/p>

a0

a1

dtype:int32

In[9]bj[c]

Out[9]:4

DataFrame数据结构的重复值数据处理

首先,创建一个带有重复索引值的DataFrame:

In[12]f=DataFrame(np.random.randn(4,3),index=[a,a,b,b])

In[13]f

Out[13]/p>

a-0.-1.-1.

a0.-0.-1.

b0..-0.

b0.-2..

其次,对DataFrame的行进行索引

In[14]f.ix

Out[14]/p>

b0..-0.

b0.-2..

到这里,小编从python开发语言的pandas函数出发,介绍类python的两个重要数据结构series和dataframe如何进行重复值数据处理。希望对大家有所助益!感谢支持!

亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个

分享 转发
TOP
发新话题 回复该主题