2017年数据科学15个最好用的Pyth - 数据

TUhjnbcbe - 2023/7/29 20:46:00

大数据文摘作品，作者：IgorBobriakov，编译：朱璇、卫青、万如苑

导读：随着近几年Python已成为数据科学行业中大火的编程语言，我们将根据以往的经验来为大家总结一下数据科学家和工程师几个最实用的python库。如果你是正在学习Python的学生，也许根据这个表单能够帮你更好地找到学习的重心。

因为所有的python库都是开源的，所以我们还列出了每个库的提交次数、贡献者人数和其他一些来自Github可以代表Python库流行度的指标。

核心库

1.NumPy（Github提交次数：，贡献者人数：）

在用Python处理科学任务时，我们常常需要使用Python的SciPyStack。SciPyStack是一个专门为用Python处理科学计算而设计的软件集（注意不要把SciPyStack和SciPy库搞混啦；SciPy库只是SciPyStack的一部分）。让我们来看看SciPyStack里面都包括什么：SciPyStack其实相当庞大，包括了十几个库。其中NumPy库是它的核心库（特别是最重要的几个库）中的明星。

NumPy（来自NumericalPython）是构建科学计算代码集的最基础的库。它提供了许多用Python进行n维数组和矩阵操作的功能。该库提供了NumPy数组类型的数学运算向量化，可以改善性能，从而加快执行速度。

2.SciPy（Github提交次数：，贡献者人数：）

SciPy是一个针对工程和科学库。再次提醒大家SciPyStack不等于SciPy库：SciPyStack包括线性代数、优化、整合和统计等模块，而SciPy库的主要功能是建立在NumPy基础之上，因此它使用了大量的NumPy数组结构。SciPy库通过其特定的子模块提供高效的数学运算功能，例如数值积分、优化等。值得一提的是SciPy子模块中的所有功能都附有详细的文档可供查阅。

3.Pandas（Github提交次数：，贡献者人数：）

Pandas是一个简单直观地应用于“带标记的”和“关系性的”的数据的Python库。它是探索数据的完美工具，能快速简单地进行数据操作、聚合和可视化。

“数列（Series）”：一维数组

“数据框（DataFrames）”：二维数组

例如，当你想从这两种数据结构中得到一个新的数据框，把一个数列作为新的一行添加至数据框，你就能得到一个如图所示的数据框。

下面列出的只是你可以用Pandas做的事情的一小部分：

●轻松添加或删除数据框中的数列

●将其他数据结构转换为数据框

●处理缺失的数据，比如用NaN表示它们

●强大的高效分组功能

下图：核心库的GoogleTrends历史记录

图片来源：trends.google.

数据结构论坛