北京看白癜风好专科 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/一起学习,一起成长!
前言
在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值数据有着重要的意义和作用。
目前市场上很多数据分析或数据挖掘类的工具,比如:SPSS、SAS、python等。虽然重复值数据对数据分析或数据挖掘有重要影响,但并不是强制性,或者说并不是所有情况下都要对重复值数据进行处理。所以,重复值数据的处理是选择性的。
接下里,小编将介绍如何使用基于python开发语言的pandas函数,处理重复值的数据。
虽然许多pandas函数(如reindex)都要求标签唯一,但这并不是强制性的。
Series数据结构的重复值数据处理
首先,小编先带着大家一起创建一个带有重复索引值的Series:
In[5]
bj=Series(range(5),index=[a,a,b,b,c])
In[6]
bj
Out[6]
/p>
a0
a1
b2
b3
c4
dtype:int32
其次,使用“is_unique”判断是否唯一:
In[7]
bj.index.is_unique
Out[7]:False
In[8]
bj[a]
Out[8]
/p>
a0
a1
dtype:int32
In[9]
bj[c]
Out[9]:4
DataFrame数据结构的重复值数据处理
首先,创建一个带有重复索引值的DataFrame:
In[12]
f=DataFrame(np.random.randn(4,3),index=[a,a,b,b])
In[13]
f
Out[13]
/p>
a-0.-1.-1.
a0.-0.-1.
b0..-0.
b0.-2..
其次,对DataFrame的行进行索引
In[14]
f.ix
Out[14]
/p>
b0..-0.
b0.-2..
到这里,小编从python开发语言的pandas函数出发,介绍类python的两个重要数据结构series和dataframe如何进行重复值数据处理。希望对大家有所助益!感谢支持!
亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个