数据完好、错误和缺失
数据对机器学习的负面影响如下:使用少量数据训练的模型在真实情况下很难执行得很好。 发生此行为的原因如下:少量数据通常无法很好地代表真实情况。 例如,在地球上随机选择的四个人并不能很好地代表地球上的普通人。 相比之下,如果我们选择了 10 亿人,我们的数据可能会很有代表性。
但是,其他因素也很重要。 我们需要具有代表性的大型数据样本,特点如下:
- 零错误。
- 包含所有关键信息。
在使用泰坦尼克号数据集进行实际练习之前,我们将在这里讨论这些问题。
“有代表性”- 这是什么意思?
统计学家依赖“总体”和“样本”这两个关键概念来确定可用数据资源是否真正有助于他们的研究和分析。
我们专注于总体。 换句话说,是每个可能的数据点。 对于泰坦尼克号场景,我们想知道哪些因素导致船上的人们幸存下来。 这包括那些没有列入官方记录的偷渡者。 第二个示例是,如果要调查性格特征与沉船可能性之间的关系,我们的总体将涵盖所有曾在世的船长。
样本指的是我们可用的数据,是总体的子集。 对于泰坦尼克号数据集,这个样本仅涵盖官方乘客列表上列出的人员。 对于第二个示例,样本可能涵盖我们能说服其在我们当地码头进行性格测试的每一位船长。
我们需要考虑样本是否能够准确地表示总体。 对于泰坦尼克号示例,我们的样本非常大,可能可以很好地表示总体。 相比之下,只与我们当地码头的船长交谈可能并不能很好地了解全球各地的水手。 使用当地码头的数据构建的模型可能适用于当地船长,但在了解其他国家/地区的船长时却没有太大帮助。
什么是数据错误?
术语“数据错误”是指不正确的数据。 如果数据错误量非常大,可能会扭曲模型,使其持续做出不正确的预测。 很简单:如果放入了错误的数据,就会得到错误的预测。
数据中的错误是不可避免的,我们可以将它们分为两类:度量错误和数据输入错误。
术语“度量错误”是指在数据收集阶段度量质量较低的数据。 这些错误通常很微妙,很难或不可能消除。
术语“数据输入错误”是指已准确收集数据,但随后以不正确或不准确的方式放入电子表格或数据管理资源。 有时,相比度量错误,我们更容易发现数据输入错误。 例如,我们可能将某人的身高测量为 1.8 米,但忽略了小数位而写成了 18 米。 我们很容易识别出错误,因为不存在一棵树大小的人。
什么是完整数据?
完整的数据集不会缺失数据。 缺失的数据有两种类型。 此数据显示 Dylan、Reece 和 Tom 的身高和体重:
名称 | 身高 (m) | 重量 (kg) |
---|---|---|
Dylan | 1.8 | 75 |
Reece | 82 |
数据不完整,因为缺少一个样本:Tom。 此外,Reece 的数据没有显示 Reece 的身高。
理想情况下,我们始终使用完整的数据,但并不总是拥有可用的完整数据。 对于不完整的数据,我们可以执行以下操作之一:
- 选择可以使用不完整数据的模型。
- 删除数据不完整的样本(行),并处理剩余数据。
- 人为地添加值作为缺失数据的合理替代项。
大多数时候,选取能够处理缺失数据的模型效果最好,但这并非总是可行。 移除不完整的数据是最简单的方法,它通常能够奏效。 但我们必须小心,确保移除数据不会导致样本错误地代表总体。 手动添加数据通常是最后的手段。
在下一个单元中,我们将使用泰坦尼克号数据集,标识并修补不完整的数据。