介绍
机器学习从塑造它的数据中获得预测能力。 若要生成有效的模型,必须了解所使用的数据。
在这里,我们将探讨人类和计算机如何对数据进行分类、存储和解释。 我们将探讨什么是好的数据集,以及如何修复可用数据中的问题。 我们还将练习探索新数据,并确定如何深入地了解数据集,以便生成更好的预测模型。
场景:泰坦尼克号的最后一次航行
作为一个热心的海洋考古学家,你对海上灾难有着异常浓厚的兴趣。 一天深夜,当你在鲸鱼骨骼的图像和关于亚特兰蒂斯的古代卷轴之间单击时,你发现了一个公共数据集,其中列出了泰坦尼克号第一次(也是最后一次)航行中已知在船上的乘客。 你被命运和机遇之间的平衡吸引住了,想知道是什么因素决定了能否成为泰坦尼克号乘客中的幸存者? 这一时期的数据有些不完整。 某些乘客的很多信息是未知的。 必须先找到修补这些数据的方法,然后才能全面分析这些数据。
先决条件
- 熟悉机器学习概念(例如模型和成本)会有所帮助,但不是必需的。
学习目标
在本模块中,你将:
- 使用探索性数据分析 (EDA) 可视化大型数据集。
- 清除数据集中的错误。
- 使用数值和分类数据预测未知值。