教程pandas轻松入门之数据结构介绍1 - 数据

TUhjnbcbe - 2024/3/8 17:15:00

北京哪家医院能治好白癜风 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/

访问flyai.club，一键创建你的人工智能项目

Pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。

虽然pandas采用了大量的NumPy编码风格，但二者最大的不同是pandas是专门为处理表格和混杂数据设计的。而NumPy更适合处理统一的数值数组数据。

自从年pandas开源以来，pandas逐渐成长为一个非常大的库，应用于许多真实案例。开发者社区已经有了个独立的贡献者，他们在解决日常数据问题的同时为这个项目提供贡献。

导入pandas的标准格式:

要使用pandas，你首先就得熟悉它的两个主要数据结构：Series和DataFrame。虽然它们并不能解决所有问题，但它们为大多数应用提供了一种可靠的、易于使用的基础。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。你可以通过Series的values和index属性获取其数组表示形式和索引对象：

通常，我们希望所创建的Series带有一个可以对各个数据点进行标记的索引：

与普通NumPy数组相比，你可以通过索引的方式选取Series中的单个或一组值：

[c,a,d]是索引列表，即使它包含的是字符串而不是整数

使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行过滤、标量乘法、应用数学函数等）都会保留索引值的链接：

还可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

如果数据被存放在一个Python字典中，也可以直接通过这个字典来创建Series：

如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传入排好序的字典的键以改变顺序：

在这个例子中，sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上，但由于California所对应的sdata值找不到，所以其结果就为NaN（即“非数字”（notanumber），在pandas中，它用于表示缺失或NA值）。因为‘Utah’不在states中，它被从结果中除去。

我将使用缺失（missing）或NA表示缺失数据。pandas的isnull和notnull函数可用于检测缺失数据：

Series也有类似的实例方法：

对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据：

数据对齐功能将在后面详细讲解。如果你使用过数据库，你可以认为是类似join的操作。

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：

Series的索引可以通过赋值的方式就地修改：

—End—

数据结构论坛