介绍

2 分钟

机器学习从塑造它的数据中获得预测能力。若要生成有效的模型，必须了解所使用的数据。

在这里，我们将探讨人类和计算机如何对数据进行分类、存储和解释。我们将探讨什么是好的数据集，以及如何修复可用数据中的问题。我们还将练习探索新数据，并确定如何深入地了解数据集，以便生成更好的预测模型。

场景：泰坦尼克号的最后一次航行

作为一个热心的海洋考古学家，你对海上灾难有着异常浓厚的兴趣。一天深夜，当你在鲸鱼骨骼的图像和关于亚特兰蒂斯的古代卷轴之间单击时，你发现了一个公共数据集，其中列出了泰坦尼克号第一次（也是最后一次）航行中已知在船上的乘客。你被命运和机遇之间的平衡吸引住了，想知道是什么因素决定了能否成为泰坦尼克号乘客中的幸存者？这一时期的数据有些不完整。某些乘客的很多信息是未知的。必须先找到修补这些数据的方法，然后才能全面分析这些数据。

先决条件

熟悉机器学习概念（例如模型和成本）会有所帮助，但不是必需的。

学习目标

在本模块中，你将：

使用探索性数据分析 (EDA) 可视化大型数据集。
清除数据集中的错误。
使用数值和分类数据预测未知值。

介绍

场景：泰坦尼克号的最后一次航行

先决条件

学习目标

反馈