简化数据结构

已完成

将数据从多个源导入 Power BI Desktop 中时,数据将保留其预定义的表和列名。 你可能需要更改其中的一些名称,使它们的格式保持一致、更易于处理,并且对用户而言更具有意义。  可以在 Power BI Desktop 中使用 Power Query 编辑器对这些名称进行更改并简化数据结构。

为了继续之前对模型中的初始数据进行调整,你需要采取进一步措施来简化销售数据的结构,并准备好数据为销售团队开发报表。  你重命名了这些列,但现在你需要检查查询(表)的名称以确定是否可以进行任何改进。 你也需要查看列的内容,并替换任何需要更正的值。

重命名查询

将不常见或无用的查询名称更改为更明显或用户更熟悉的名称是比较好的做法。 例如,如果将产品事实数据表导入 Power BI Desktop 并且查询名称显示为“FactProductTable”,则可能需要将它更改为对用户易记名称,例如“Products”。 同样,如果导入视图,此视图的名称可能会带有“v”前缀,例如“vProduct”。 人们可能会发现这一名称不清楚并且令人混淆,因此,可能需要删除此前缀。

在本例中,你检查了 TargetSales 查询的名称,意识到此名称是无用的,因为你将会有针对每年带有此名称的查询。  若要避免混淆,需要将年份添加到查询名称。

在 Power Query 编辑器中,在数据左侧的“查询”窗格中,选择想要重命名的查询。 右键单击查询并选择“重命名”。 编辑当前名称或键入新名称,然后按 Enter。

替换值

可以使用 Power Query 编辑器中的“替换值”功能将所选列中的任何值替换为另一个值。

在本例中,你会注意到,在“Attribute”列中,月份 December 拼写错了。  需要更正此拼写错误。 选择包含想要替换的值的列(在本例中为“Attribute”),然后选择“转换”选项卡上的“替换值”。

在“要查找的值”框中,输入想要替换的值的名称,接着在“替换为”框中,输入正确的值名称,然后选择“确定”。  在 Power Query 中,你无法像在 Excel 中一样选择一个单元格和更改一个值。

可以在“查询设置”窗格中查看对数据进行重建格式和更正所采取的步骤列表。 完成需要进行的所有步骤后,可以选择“关闭并应用”关闭 Power Query 编辑器,将更改应用到数据模型。  不过,可以采取进一步操作来清理和转换数据。

替换 NULL 值

有时,你可能会发现数据源包含 NULL 值。 例如,销售订单中的运费金额可能会有一个 NULL 值(只要它与零同义)。 如果此值保持为 NULL,聚合计算将出错。  一种解决方法是将 NULL 更改为零,这将生成更准确的运费平均值。 在此实例中,使用之前进行的相同步骤将帮助你将 NULL 值替换为零。

删除重复项

还可以使用 Power Query 中的“删除重复项”功能从列中删除重复项,从而在所选列中仅保留唯一名称。

在本例中,可以注意到“Category Name”列包含每一类别的重复项。 因此,需要创建包含唯一类别的一个表,并将它用于语义模型中。 可以通过以下方式实现此操作:选择一列,右键单击此列的标头,然后选择“删除重复项”选项。

可以考虑在删除重复项之前复制表。 “复制”选项位于上下文菜单的顶部,如下面的屏幕截图所示。 如有需要,在删除重复项之前复制表使你能够比较表并能够使用这两个表。

命名表、列和值的最佳做法

表、列和值的命名约束没有固定的规则,但是,我们建议使用你的组织内常用的并且所有人都一致认同是常用术语的语言和缩写。

最佳做法是为表、列和度量值提供描述性的业务术语,并将下划线(“_”)替换为空格。 请务必保持缩写、前缀以及“number”和“ID”等词的一致性。如果不是在组织内常用的缩写,那么过短的缩写可能会导致混淆。

此外,可以删除可能在表名中使用的前缀或后缀并改为以简单的格式对它们进行命名,这将有助于避免混淆。

替换值时,请尝试想象这些值将如何显示在报表中。 过长的值可能难以阅读并且难以融入视觉对象中。 过短的值可能难以理解。 只要文本适合视觉对象,避免对值使用缩写也是一个不错的主意。