数据结构论坛

首页 » 分类 » 定义 » Python数据分析第七章数据清洗
TUhjnbcbe - 2020/11/13 6:30:00
第七章数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规整为想要的格式。

实际上,pandas的许多设计和实现都是由真实应用的需求所驱动的。

在本章中,我会讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。下一章,我会

1
查看完整版本: Python数据分析第七章数据清洗