简介

已完成

假设你已从若干不同的源将数据导入了 Power BI,但在检查这些数据时,这些数据并没有做好用于进行分析的准备。 是什么使数据没有为分析做好准备?

检查数据时,你发现了一些问题,包括:

  • 名为 Employment status 的一列仅包含数字。

  • 若干列包含错误。

  • 某些列包含 NULL 值。

  • 某些列中显示的客户 ID 似乎是重复复制的。

  • 单一地址列合并有“街道地址”、“城市”、“省/市/自治区”以及“邮政编码”。

你随即开始处理数据,但每次在报表上创建视觉对象时,都会得到错误的数据和不正确的结果,并且关于销售总额的简单报表也是错误的。

由于脏数据可能过于繁多,你可能会感到沮丧,但你决定开始着手处理,想办法使此语义模型尽可能恢复纯净的状态。

幸运的是,Power BI 和 Power Query 为你提供了功能强大的环境,用于清理和准备数据。 清理数据具有以下优点:

  • 度量值和列在执行聚合和计算时会生成更准确的结果。

  • 表经过了整理,用户可以从中以直观的方式查找数据。

  • 重复项会被删除,使数据导航更为简单。 它还将生成可用于切片器和筛选器的列。

  • 一个复杂的列可以被拆分为两个更简单的列。 可以将多列合并成一列,易于阅读。

  • 可以将代码和整数替换为可读的值。

通过学习本模块,你将了解如何:

  • 解决不一致、意外或 NULL 值以及数据质量问题。

  • 应用用户友好的值替换。

  • 分析数据,使你在使用数据之前能了解特定列的更多信息。

  • 评估和转换列数据类型。

  • 将数据形状转换应用于表结构。

  • 合并查询。

  • 将用户友好的命名约定应用于列和查询。

  • 在高级编辑器中编辑 M 代码。