雷锋网AI研习社按,Kaggle上有各式各样的数据挖掘类比赛,很多参赛者也乐于分享自己的经验,从他人的经验中进行总结归纳,对自己的实践也非常重要。
本文将以Kaggle上6个不同的比赛为例,介绍常见的三类数据(结构化数据,NLP数据,图像数据)分析经验,以助力大家提升数据分析能力。此文为上篇,主要介绍结构化数据和NLP数据,包含Titanic比赛,房价预测比赛,恶意评论分类,恐怖小说家身份识别。下篇将会介绍两个极具特色的图像类比赛——树叶分类竞赛(LeafClassification)和肺癌检测比赛(DataScienceBowl)。
正文如下,雷锋网AI研习社编译整理:
建立准确模型的关键是全面了解正在使用的数据,但数据通常是混乱的。在我自学机器学习的前几个月,对如何理解数据并没有很多的想法。我假设数据来自一个自底向上组织完好的包,或者至少有一组明确的步骤可以遵循。
查看别人的代码之后,我发现大家理解、可视化和分析相同数据集的方式是不同的,对此我很震惊。我决定通读几种不同的数据分析方式,找出其中的异同点,并提炼出一套理解数据集的最佳实践或策略,以便更好地利用它们进行数据分析。
数据科学家会花大量时间在数据预处理上,而不是模型优化问题上。——lorinc
本文中,我选择了一些在Kaggle上公开的探索性数据分析(EDA)。这些分析将交互式代码片段与文章结合在一起,有助于提供数据的鸟瞰图或梳理数据中的模式。
我同时研究了特征工程,这是一种获取现有数据并用一些方法将其转化,赋予数据其他含义的技术(例如,获取时间戳并提取DAY_OF_WEEK列,这些列可用于预测商店中的销售情况)。
我想看看各种不同的数据集,所以我选择了:
结构化数据NLP(自然语言)数据图像数据
结构化数据
结构化数据集是包含训练和测试数据的电子表格。电子表格可能包含分类变量(颜色,如绿色、红色和蓝色),连续变量(年龄,如4、15和67)和序数变量(教育程度,如小学、高中、大学)。
训练数据表中包括一个尝试解决的目标列,这些列不会出现在测试数据中。我所研究的大部分EDA都侧重于梳理出目标变量与其他列之间的潜在关联性。
我们的主要目的是寻找不同变量之间的关联性,有很多切分数据的方法。可视化的选择更多。
特征工程可以让你充分发挥想象力,不同参赛选手在合成特征或将分类特征合并为新特征时,都有不同的方法。
让我们更深入地看看Titanic