使用 Azure Data Lake 创建 Azure Synapse Link for Dataverse
您可以使用 Azure Synapse Link 将 Microsoft Dataverse 数据连接到 Azure Data Lake Storage Gen2,来支持各个分析场景。 本文介绍如何执行以下任务:
- 使用 Azure Synapse Link 服务将 Dataverse 数据连接到 Azure Data Lake Storage Gen2 帐户。
- 管理 Azure Synapse Link 中包括的 Dataverse 表。
- 监视您的 Azure Synapse Link。
- 取消 Azure Synapse Link 的链接。
- 重新链接您的 Azure Synapse Link。
- 在 Azure Data Lake 中查看数据并了解文件结构。
备注
Azure Synapse Link for Dataverse 以前称为“导出到 Data Lake”。 此服务已更名,从 2021 年 5 月起生效,它会继续将数据导出到 Azure Data Lake 以及 Azure Synapse Analytics。
先决条件
- Azure Data Lake Storage Gen2:您必须有 Azure Data Lake Storage Gen2 帐户以及所有者和存储 Blob 数据参与者角色访问权限。 您的存储帐户必须为初始设置和增量同步启用分层命名空间。仅在初始设置时才需要允许存储帐户密钥访问。
备注
- 必须在与 Power Apps 租户相同的 Microsoft Entra 租户中创建存储帐户。
- 若要为链接的存储帐户设置从选定的虚拟网络和 IP 地址启用以授予对所选 IP 地址的访问权限,您必须创建具有托管标识的 Azure Synapse Link。将 Azure 托管标识与 Azure Data Lake Storage 结合使用(在未设置托管标识的情况下,您必须为 Azure 资源启用公用网络访问权限以进行初始设置和增量同步。)
- 您必须具有存储帐户资源组的读者访问权限。
- 若要将环境链接到 Azure Data Lake Storage Gen2,您必须具有 Dataverse 系统管理员安全角色。
- 只能导出启用了更改跟踪的表。
- 在单个 Dataverse 环境下最多可以创建 10 个 Azure Synapse Link 配置文件。
将 Dataverse 连接到 Azure Data Lake Storage Gen2
登录 Power Apps,选择您的首选环境。
在左侧导航窗格中,选择 Azure Synapse Link。 如果 Azure Synapse Link 在侧面板窗格中不可见,请选择 …更多,然后选择发现全部。 Azure Synapse Link 位于数据管理部分中。
在命令栏上,选择 + 新建数据湖链接。
选择订阅、资源组和存储帐户。 确保存储帐户满足在先决条件部分中指定的要求。 选择下一步。
备注
作为将环境链接到数据湖的一部分,您授予 Azure Synapse Link 服务访问您的存储帐户的权限。 请确保满足了创建和配置 Azure Data Lake Storage 帐户以及为自己授予存储帐户负责人角色的先决条件。 另外,您将授予 Power Platform 数据流服务访问您的存储帐户的权限。 详细信息:使用数据流自助准备数据.
添加要导出的表,然后选择保存。 只能导出启用了更改跟踪的表。 详细信息:启用更改跟踪。
您可以按照本文中的步骤创建从您的 Azure 订阅中的一个环境到多个 Azure Data Lake 的链接。 同样,您可以创建从多个环境到同一个 Azure Data Lake 的链接,全部在同一个租户中。
备注
Azure Synapse Link for Dataverse 服务作为现成功能无缝集成到 Power Platform 中。 它满足为 Power Platform 数据存储和治理设定的安全性和治理标准。 详细信息:数据存储和治理
Azure Synapse Link 服务导出的数据在传输时使用传输层安全性 (TLS) 1.2 或更高版本加密,在 Azure Data Lake Storage Gen2 中静态加密。 此外,blob 存储中的瞬态数据也会静态加密。 Azure Data Lake Storage Gen2 中的加密可帮助您保护数据、实施企业安全策略并满足法规合规性要求。 详细信息:Azure 静态数据加密
管理表数据与数据湖
设置 Azure Synapse Link 后,可以通过以下两种方式之一管理导出的表:
在 Power Apps 制作者门户 Azure Synapse Link 区域,选择命令栏上的管理表添加或删除一个或多个链接表。
在 Power Apps 制作者门户的表区域,选择表旁边的 …, 然后选择要在其中导出表数据的链接数据湖。
监视您的 Azure Synapse Link
设置 Azure Synapse Link 后,可以监视表选项卡下的 Azure Synapse Link。
- 将存在一个表列表,这些表是所选 Azure Synapse Link 的一部分。
- 同步状态将循环经过不同的阶段。 NotStarted 表明该表正在等待同步。 表初始同步完成后,将有一个不会发生增量更新的后期处理阶段。 这可能需要几个小时,具体取决于您的数据大小。 随着增量更新开始发生,上次同步的日期将定期更新。
- 计数列显示写入的行数。 当仅追加设置为否时,这是记录总数。 当仅追加设置为是时,这是更改总数。
- 仅追加和分区策略列显示了各种高级配置的用法。
取消 Azure Synapse Link 的链接
选择要取消链接的所需 Azure Synapse Link。
从命令栏中选择取消链接数据湖。
若要同时删除数据湖文件系统,请选择删除数据湖文件系统。
选择是,等待几分钟让所有内容全部取消链接和删除。
重新链接 Azure Synapse Link
如果在取消链接时删除了文件系统,请按照上面的步骤重新链接相同的数据湖。 如果未在取消链接时删除文件系统,则必须清除数据以重新链接:
转到 Azure Data Lake。
删除 Dataverse 容器。
转到 Power Apps,然后重新链接数据湖。
在 Azure Data Lake Storage Gen2 中查看您的数据
选择所需的 Azure Synapse Link,然后从顶部面板中选择转到 Azure Data Lake。
展开文件系统,然后选择 select dataverse-environmentName-organizationUniqueName。
model.json 文件及其名称和版本提供已导出到数据湖的表的列表。 model.json 文件中还包含初始同步状态和同步完成时间。
每个导出到数据湖的表将显示一个包含快照逗号分隔(CSV 格式)文件的文件夹。
将 Synapse 工作区链接到仅包含数据湖的现有 Azure Synapse Link 配置文件
在 Web 浏览器地址栏中,将
?athena.updateLake=true
追加到以 exporttodatalake 结尾的 Web 地址。从 Azure Synapse Link 区域中选择现有配置文件,然后选择扩展的选项。
选择链接到 Azure Synapse Analytics 工作区,等待几分钟让所有内容全部链接。
连续更新快照
可通过创建、更新和删除事务持续更改 Microsoft Dataverse 数据。 快照提供定期更新的数据的只读副本,此例中为每小时。 这样可以确保数据分析使用者随时可以可靠地使用湖中的数据。
添加表作为初始导出的一部分时,表数据将写入到数据湖中相应文件夹下的 table.csv 文件中。 这是 T1 间隔,在其中创建名为 table-T1.csv 的快照只读文件,例如,Account-T1.csv 或 Contacts-T1.csv。 此外,还将把 model.json 文件更新为指向这些快照文件。 可通过打开 model.json 查看快照详细信息。
下面是数据湖中 Account.csv 分区文件和快照文件夹的示例。
将使用稀疏源引擎把 Dataverse 中的更改持续推送到相应的 CSV 文件中。 这是 T2 间隔,此时再创建一个快照。 table-T2.csv(例如 Accounts-T2.csv 或 Contacts-T2.csv)(假设表有更改)和 model.json 被更新为新的快照文件。 将把查看 T2 的快照数据的所有新用户继续定向到更新的快照文件。 这样,原始快照查看者就可以继续处理旧快照 T1 文件,而新查看者则可以读取最新更改。 这在具有较长运行时间的下游流程的方案中非常有用。
备注
只有在数据更新时,才会创建新的快照文件。 将仅保留最新的五个快照文件。 陈旧数据将被自动从您的 Azure Data Lake Storage Gen 2 帐户中删除。
下面是 model.json 文件的示例,该文件始终指向时间戳最新的客户快照文件。
下一步是什么?
成功使用 Azure Synapse Link for Dataverse 服务后,了解如何使用探索中心分析和使用数据。 要访问探索中心,转到 Power Apps > Azure Synapse Link。 选择链接的服务,然后选择发现中心选项卡。可以在此处找到建议的工具和辅助文档,以帮助您充分发挥数据的价值。
另请参阅
使用 Power BI 分析数据湖中的 Dataverse 数据
使用 Azure 数据工厂在数据湖中引入 Dataverse 数据