Microsoft Purview 中的弹性数据映射

Microsoft Purview 数据映射为数据发现和数据治理提供了基础。 它捕获混合、本地和多云环境中的分析、软件即服务 (SaaS) 以及操作系统中存在的数据的元数据。 数据映射通过内置的扫描和分类系统保持最新。

所有Microsoft Purview 帐户都有一个数据映射,该映射从一个容量单位开始,并且可以弹性增长。 它们根据存储在数据映射中的请求负载和元数据进行纵向扩展和缩减。

数据映射容量单位

弹性数据映射包含两个组件-元数据存储和操作吞吐量,表示为 CU) (容量单位。 默认情况下,所有Microsoft Purview 帐户都从一个容量单位开始,并根据使用情况弹性增长。 每个数据映射容量单位包括 25 个操作/秒的吞吐量和 10 GB 的元数据存储限制。

运营

操作是Microsoft Purview 数据映射的吞吐量度量值。 它们包括对数据映射中存储的元数据执行的任何创建、读取、写入、更新和删除操作。 操作的一些示例包括:

  • 在数据映射中创建资产
  • 向资产添加关系,例如所有者、专员、父级、世系等。
  • 编辑资产以添加业务元数据,例如说明、术语表术语等。
  • 关键字搜索将结果返回到搜索结果页。

存储器

存储是数据映射的第二个组件,包括技术、业务、操作和语义元数据的存储。

技术元数据包括Microsoft Purview 扫描期间发现的架构、数据类型、列等。 业务元数据包括自动 ((例如,从 Power BI 数据集提升)或 SQL 表的说明) 和手动标记说明、术语表术语等。 语义元数据的示例包括到数据源的集合映射或分类。 操作元数据包括数据工厂副本和数据流活动运行状态以及运行时间。

使用弹性数据映射

  • 具有自动缩放的弹性数据映射 - 从数据映射开始,只需一个容量单位即可根据负载自动缩放。 对于大多数组织来说,此功能可以提高成本,降低启动数据治理项目的价格。 此功能会影响定价。

  • 增强的扫描 & 引入 - 可以在扫描和引入过程中跟踪和控制数据资产、分类和世系的填充。 此功能会影响定价。

应用场景

Claudia 是 Contoso 的 Azure 管理员,想要从 Azure 门户 创建新的 Microsoft Purview 帐户。 她不知道支持平台未来状态所需的Microsoft Purview 数据映射大小。 但是,她知道,Microsoft Purview 数据映射是使用容量单位计费的,容量单位受存储和操作吞吐量的影响。 她希望创建最小的数据映射,以保持低成本,并根据使用量弹性增加数据映射大小。

Claudia 可以创建一个 Microsoft Purview 帐户,其默认数据映射大小为一个容量单位,该帐户可自动纵向扩展和缩减。 自动缩放功能还允许根据特定时间段的间歇性或计划内数据突发来优化容量。 Claudia 按照创建体验中的后续步骤设置网络配置并完成创建。

在 Azure 门户,在 Microsoft Purview 帐户的“指标”选项卡中,Claudia 可以看到数据映射存储和操作吞吐量的消耗情况。 当存储或操作吞吐量达到特定限制时,她可以进一步设置警报,以监视新 Microsoft Purview 帐户的消耗和计费。

数据映射计费

客户按 25 个操作/秒 (一个容量单位计费,) 10 GB,额外计费基于汇总到小时的每个额外容量单位的消耗量。 数据映射操作以 25 个操作/秒的增量缩放,元数据存储以 10 GB 大小的增量缩放。 Microsoft Purview 数据映射可以在弹性窗口中自动纵向扩展和缩减 (检查当前限制) 。 但是,若要获得下一级别的弹性窗口,需要创建支持票证。

数据映射容量单位对操作吞吐量和存储具有上限。 如果存储超过当前容量单位,即使未使用操作吞吐量,客户也会为下一个容量单位收费。 下表显示了数据映射容量单位范围。 如果数据映射容量单位超过 100 个容量单位,请联系支持人员。

数据映射容量单位 操作数/秒吞吐量 存储容量(以 GB 为单位)
1 25 10
2 50 20
3 75 30
4 100 40
5 125 50
6 150 60
7 175 70
8 200 80
9 225 90
10 250 100
.. .. ..
100 2500 1000

计费示例

  • Microsoft Purview 数据映射给定小时的操作吞吐量小于或等于 25 个操作/秒,存储大小为 1 GB。 客户按一个容量单位计费。

  • Microsoft Purview 数据映射给定小时的操作吞吐量小于或等于 25 个操作/秒,存储大小为 15 GB。 客户按两个容量单位计费。

  • Microsoft Purview 数据映射给定小时的操作吞吐量为 50 个操作/秒,存储大小为 15 GB。 客户按两个容量单位计费。

  • Microsoft Purview 数据映射给定小时的操作吞吐量为 50 个操作/秒,存储大小为 25 GB。 客户按三个容量单位计费。

  • Microsoft Purview 数据映射给定小时的操作吞吐量为 250 个操作/秒,存储大小为 15 GB。 客户按 10 个容量单位计费。

详细计费示例

数据映射计费示例显示了一个数据映射,在从中午 12 点到晚上 6 点的 6 小时时段内,元数据存储和每秒可变操作数不断增加。 图中的红线是每秒操作消耗量,蓝色虚线是此 6 小时时段内的元数据存储消耗:

描述操作数和元数据随时间推移增长的图表。

每个数据映射容量单位支持 25 个操作/秒和 10 GB 的元数据存储。 数据映射按小时计费。 它按一小时内所需的最大数据映射容量单位计费,至少为一个容量单位。 有时,可能需要在一小时内每秒执行更多操作,而更多的操作会增加该小时内所需的容量单位数。 在其他情况下,操作数/秒的使用率可能较低,但可能仍需要大量的元数据存储。 元数据存储决定了在一小时内需要多少个容量单位。

下表显示此计费示例每小时使用的最大操作数/秒和元数据存储数:

描述一段时间内最大操作数和元数据增长情况的表。

根据此期间的数据映射每秒操作数和元数据存储消耗量,此数据映射将在 6 小时内按 22 个容量单位小时计费, (1 + 3 + 4 + 5 + 6 + 3) :

描述一段时间内 CU 小时数的表。

重要

Microsoft Purview 数据映射可以在弹性窗口中自动纵向扩展和缩减 (检查当前限制) 。 若要获取弹性窗口的下一级别,需要创建支持票证。

提高操作吞吐量限制

每秒最大操作数的默认限制为 10 个容量单位。 如果使用的是大型 Microsoft Purview 环境,并且需要更高的吞吐量,可以通过 创建配额请求来请求更大的弹性窗口容量。 选择“数据映射容量单位”作为配额类型。 尽可能多地提供有关环境和要请求的额外容量的相关信息。

重要

元数据存储没有默认限制。 向数据映射添加更多元数据时,元数据会弹性增加。

提高操作吞吐量限制还会增加最小容量单位数。 如果将吞吐量限制增加到 20,则收取的最小容量单位为 2 个库。 下表说明了可能的吞吐量选项。 在配额请求中输入的数字是帐户上的最小容量单位数。

最小容量单位 操作吞吐量限制
1 10 (默认)
2 20
3 30
4 40
5 50
6 60
7 70
8 80
9 90
10 100

监视弹性数据映射

可以监视指标数据映射容量单位和数据映射存储大小,以了解数据资产大小和计费。

  1. 转到Azure 门户,导航到“Microsoft Purview 帐户”页,然后选择 Purview 帐户

  2. 选择“概述”并向下滚动以观察不同时间段的数据映射容量单位和数据映射存储大小指标的“监视”部分

    显示弹性数据映射指标概述页的菜单的屏幕截图。

  3. 对于其他设置,请导航到“监视”-“>指标”,观察数据映射容量单位和数据映射存储大小

    显示指标的菜单的屏幕截图。

  4. 选择 “数据映射容量单位” 以查看过去 24 小时的数据映射容量单位使用情况。 请注意,将鼠标悬停在折线图上表示在特定日期的特定时间消耗的数据映射容量单位。

    显示超过 24 小时的数据映射容量单位的菜单的屏幕截图。

  5. 选择屏幕右上角的“ 本地时间:过去 24 小时 (自动 - 1 小时) 修改图形显示的时间范围。

    菜单的屏幕截图,其中显示了在自定义时间范围内消耗的数据映射容量单位。

    显示三天时间范围内消耗的数据映射容量单位的菜单的屏幕截图。

  6. 通过选择选项自定义图形类型:

    显示用于修改图形类型的选项的菜单的屏幕截图。

  7. 选择 “新建图表 ”,为“数据映射存储大小”图表添加图形。

    显示所用数据映射存储大小的菜单的屏幕截图。

摘要

借助弹性数据映射,Microsoft Purview 为客户提供了低成本的障碍,让客户开始其数据治理之旅。 Microsoft Purview 数据映射可以弹性增长,即用即付模型从一个容量单位开始。 客户无需担心在创建时为其数据资产选择正确的数据映射大小。

后续步骤