数据分析秘籍在这里Kaggle六大比赛最 - 数据

TUhjnbcbe - 2024/5/19 16:36:00

中科白癜风抗复发治疗 https://yiyuan.99.com.cn/bjzkbdfyy/

雷锋网AI研习社按，Kaggle上有各式各样的数据挖掘类比赛，很多参赛者也乐于分享自己的经验，从他人的经验中进行总结归纳，对自己的实践也非常重要。

本文将以Kaggle上6个不同的比赛为例，介绍常见的三类数据（结构化数据，NLP数据，图像数据）分析经验，以助力大家提升数据分析能力。此文为上篇，主要介绍结构化数据和NLP数据，包含Titanic比赛，房价预测比赛，恶意评论分类，恐怖小说家身份识别。下篇将会介绍两个极具特色的图像类比赛——树叶分类竞赛（LeafClassification）和肺癌检测比赛（DataScienceBowl）。

正文如下，雷锋网AI研习社编译整理：

建立准确模型的关键是全面了解正在使用的数据，但数据通常是混乱的。在我自学机器学习的前几个月，对如何理解数据并没有很多的想法。我假设数据来自一个自底向上组织完好的包，或者至少有一组明确的步骤可以遵循。

查看别人的代码之后，我发现大家理解、可视化和分析相同数据集的方式是不同的，对此我很震惊。我决定通读几种不同的数据分析方式，找出其中的异同点，并提炼出一套理解数据集的最佳实践或策略，以便更好地利用它们进行数据分析。

数据科学家会花大量时间在数据预处理上，而不是模型优化问题上。——lorinc

本文中，我选择了一些在Kaggle上公开的探索性数据分析（EDA）。这些分析将交互式代码片段与文章结合在一起，有助于提供数据的鸟瞰图或梳理数据中的模式。

我同时研究了特征工程，这是一种获取现有数据并用一些方法将其转化，赋予数据其他含义的技术（例如，获取时间戳并提取DAY_OF_WEEK列，这些列可用于预测商店中的销售情况）。

我想看看各种不同的数据集，所以我选择了：

结构化数据NLP（自然语言）数据图像数据

结构化数据

结构化数据集是包含训练和测试数据的电子表格。电子表格可能包含分类变量（颜色，如绿色、红色和蓝色），连续变量（年龄，如4、15和67）和序数变量（教育程度，如小学、高中、大学）。

训练数据表中包括一个尝试解决的目标列，这些列不会出现在测试数据中。我所研究的大部分EDA都侧重于梳理出目标变量与其他列之间的潜在关联性。

我们的主要目的是寻找不同变量之间的关联性，有很多切分数据的方法。可视化的选择更多。

特征工程可以让你充分发挥想象力，不同参赛选手在合成特征或将分类特征合并为新特征时，都有不同的方法。

让我们更深入地看看Titanic

数据结构论坛