检查现实世界数据

已完成

教材中提供的数据通常是非常完美的,旨在教学生如何查找变量之间的明确关系。 “现实世界”数据稍微简单一些。

由于“现实世界”数据的复杂性,因此在使用原始数据之前,必须检查原始数据是否有问题。

因此,最佳做法是检查原始数据并在使用之前对其进行处理,从而减少错误或问题,方法一般是删除错误的数据点或将数据修改为更有用的形式。

现实世界数据问题

现实世界数据可能包含许多不同的问题,可能会影响数据的实用性和我们对结果的解释。

非常重要的一点是,大多数现实世界数据都会受到当时未记录因素的影响。 例如,我们可能有一张赛车赛道时间和发动机尺寸的表格,但它没有记录的各种其他因素(比如天气)可能也起到了作用。 如果出现问题,我们通常可以通过增加数据集的大小来降低这些因素的影响。

在其他情况下,明显超出预期的数据点(也称为“离群值”)有时可以安全地从分析中删除,但我们必须注意不要删除提供真实见解的数据点。

现实世界数据的另一个常见问题是偏差。 偏差是指倾向于以一种歪曲潜在人群或“现实世界”的方式,比其他人更频繁地选择某些类型的值。 有时可以通过浏览数据来识别偏差,同时牢记有关数据来源的基本知识。

现实世界数据总是有问题,但数据科学家通常可以通过以下方法解决这些问题:

  • 检查缺失的值和错误记录的数据。
  • 考虑删除明显的离群值。
  • 研究哪些现实世界因素可能会影响其分析,并确定其数据集大小是否足以降低这些因素的影响。
  • 检查有偏差的原始数据,并考虑解决偏差的选项(如果找到)。