选自Medium
作者:RudolfHhn机器之心编译
参与:李诗萌、张倩
在本文中,作者从Pandas的简介开始,一步一步讲解了Pandas的发展现状、内存优化等问题。这是一篇最佳实践教程,既适合用过Pandas的读者,也适合没用过但想要上手的小白。
通过本文,你将有望发现一到多种用pandas编码的新方法。
本文包括以下内容:
Pandas发展现状;内存优化;索引;方法链;随机提示。在阅读本文时,我建议你阅读每个你不了解的函数的文档字符串(docstrings)。简单的Google搜索和几秒钟Pandas文档的阅读,都会使你的阅读体验更加愉快。
Pandas的定义和现状
什么是Pandas?
Pandas是一个「开源的、有BSD开源协议的库,它为Python编程语言提供了高性能、易于使用的数据架构以及数据分析工具」。总之,它提供了被称为DataFrame和Series(对那些使用Panel的人来说,它们已经被弃用了)的数据抽象,通过管理索引来快速访问数据、执行分析和转换运算,甚至可以绘图(用matplotlib后端)。
Pandas的当前最新版本是v0.25.0(