前言
在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值数据有着重要的意义和作用。
目前市场上很多数据分析或数据挖掘类的工具,比如:SPSS、SAS、python等。虽然重复值数据对数据分析或数据挖掘有重要影响,但并不是强制性,或者说并不是所有情况下都要对重复值数据进行处理。所以,重复值数据的处理是选择性的。
接下里,小编将介绍如何使用基于python开发语言的pandas函数,处理重复值的数据。
虽然许多pandas函数(如reindex)都要求标签唯一,但这并不是强制性的。
Series数据结构的重复值数据处理
首先,小编先带着大家一起创建一个带有重复索引值的Series:
In[5]:obj=Series(range(5),index=[a,a,b,b,c])
In[6]:obj
Out[6]:
a0
a1
b2
b3
c4
dtype:int32
其次,使用“is_unique”判断是否唯一:
In[7]:obj.index.is_unique
Out[7]:False
In[8]:obj[a]
Out[8]:
a0
a1
dtype:int32
In[9]:obj[c]
Out[9]:4
DataFrame数据结构的重复值数据处理
首先,创建一个带有重复索引值的DataFrame:
In[12]:df=DataFrame(np.random.randn(4,3),index=[a,a,b,b])
In[13]:df
Out[13]:
a-0.-1.-1.
a0.-0.-1.
b0..-0.
b0.-2..
其次,对DataFrame的行进行索引
In[14]:df.ix
Out[14]:
b0..-0.
b0.-2..
到这里,小编从python开发语言的pandas函数出发,介绍类python的两个重要数据结构series和dataframe如何进行重复值数据处理。希望对大家有所助益!感谢支持!
亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个