使用 Azure Synapse Link 引入数据

按照本文中的步骤,使用 Dataverse Link 将组织的环境数据从 Sustainability Manager 数据模型导入 Fabric 工作区中的 IngestedRawData Azure Synapse 湖仓一体。

先决条件

  • 在 Fabric 工作区中部署环境数据和见解功能。
  • 确保在您的 Microsoft Sustainability Manager 环境中安装并设置 。 Dataverse
  • 确保您具有系统 Dataverse 管理员安全角色。
  • 在 Fabric 工作区中部署 Environmental data and insights 功能。
  • 确保您拥有 Azure Data Lake Storage Gen2 存储帐户。
  • 确保您具有系统 Dataverse 管理员安全角色。
  • 确保你拥有 Azure Data Lake Storage Gen2 帐户以及所有者和存储 Blob 数据参与者角色访问权限。 您的存储帐户必须为初始设置和增量同步启用分层命名空间。仅在初始设置时才需要允许存储帐户密钥访问。

在此步骤中,您将为 Sustainability Manager 环境设置一个 Azure Synapse 链接,您希望从该环境将数据导入 Fabric 工作区中的 Sustainability 数据解决方案。

  1. Power Apps 打开门户。 在右上角,选择 Dataverse 安装了 Sustainability Manager 的环境。

  2. 从左侧窗格中选择 Azure Synapse Link (链接 ),然后选择 New link ( 新建链接)。 如果尚未显示,请选择 更多,选择 全部发现 ,选择数据管理,然后选择 Azure Synapse 链接

    选择 Azure Synapse Link 的屏幕截图。

  3. 保持不选中连接到 Azure Synapse Analytics 工作区。 您在 Fabric(而不是 Synapse)上运行集成和转换脚本。

  4. 输入您的存储帐户和订阅详细信息,然后选择下一步。 您只能选择与环境位于同一位置的存储帐户。 例如,如果您的环境位于美国西部,您的存储帐户应位于美国西部或美国西部 2。

    设置新链接的屏幕截图。

  5. 从列表中选择所有 Sustainability Manager 表 ,然后选择 Save (保存)。 您可以按 msdyn_ 筛选来查看相关表。

    将 Azure Synapse 创建指向存储帐户的链接,并将所选表导出到存储帐户。 您可以通过返回 Azure Synapse 链接,选择您创建的链接,然后选择 管理表 ,在链接中添加或删除表。

    管理表的屏幕截图。

  6. 打开在前面的步骤中创建链接时提供的 Data Lake Storage Gen2 帐户。 在存储帐户中创建一个以 - Dataverse 开头 的新容器,其中包含所有选定的表以 CSV 格式以文件夹结构导出,以及 包含所有表架构的 model.json 文件。 您的 Sustainability Manager 数据现在已在您自己的存储帐户中可用。

在此步骤中,您将使用 Fabric 快捷方式功能将具有 Sustainability Manager 数据的 Data Lake Storage 容器链接到 已部署功能的 IngestedRawData 湖屋。

  1. 打开 Fabric 中您部署可持续发展解决方案的工作区。 要打开解决方案,从列表视图中选择该解决方案。 从 Manage deployed capabilities (管理已部署的功能) 列表视图中选择环境、社会和治理 (ESG) 数据资产功能,以访问托管功能页面。

  2. 从 ESG 数据资产托管功能页面中,选择 IngestedRawData Lakehouse。

    选择 lakehouse 的屏幕截图。

  3. 文件省略号菜单中选择新建快捷方式。 在 New shortcut (新建快捷方式 对话框中,选择 Azure Data Lake Storage Gen2 磁贴,然后提供以下连接详细信息以连接到包含导出的 Sustainability Manager 数据的 Data Lake Storage 容器。

    • URL:转到 Data Lake Storage 帐户。 在左侧,选择 Endpoint (终端节点)。 然后复制 Data Lake Storage 的端点并将其粘贴到 URL 字段中。
    • 连接:选择 Create new connection(创建新连接)。
    • 身份验证类型:选择“ 组织帐户”,登录到 Data Lake Storage 帐户,然后选择“ 下一步”

    连接设置的屏幕截图。

  4. 为快捷方式名称输入 MSMData,将子路径设置为包含前缀为 / 的 Sustainability Manager 数据的容器名称,然后选择创建。 Sustainability Manager 数据将成功与文件下的数据湖集成。

步骤 3:转换数据

在 Sustainability Manager 数据集成到 IngestedRawData Lakehouse 中 后,您需要通过将数据转换为 [ESG 数据模型(../esg-data-model/overview.md)] 架构。 功能部署在工作区中创建了 ProcessedESGData 湖仓一体,用于存储协调数据。

ESG 数据模型架构将 ESG 数据实体链接到描述公司其他职能领域(如 HR、IT 或财务生产)的其他数据实体。

为了将 Sustainability Manager 数据转换为 ESG 数据模型 架构,该功能提供了笔记本和数据管道,这些笔记本和数据管道使用存储在工作区中 ConfigAndDemoData 湖仓一体中的库,使用预构建的转换和编排技术。

激活第一步并运行 TransformMSMDataToProcessedESGData_DTPL 数据管道,以将 Sustainability Manager 数据 加载并转换为 ProcessedESGData Lakehouse 中的 ESG 数据模型 架构。

转换数据的屏幕截图。

数据管道运行以下步骤:

  1. 默认情况下,此步骤处于停用状态,需要在运行管道之前激活。 它将链接的 Sustainability Manager 数据加载为 Lakehouse 表。 转换库需要源数据采用增量表格式。 LoadMSMDataToLakehouseTables_INTB 笔记本将链接的 Sustainability Manager 数据加载到 Lakehouse 表中。 此笔记本成功执行后,您可以验证 IngestedRawData Lakehouse 表中的数据

  2. 将 Sustainability Manager 数据转换为 ESG 数据模型 架构的过程分为两个阶段:

  • 首先, TransformMSMDataToProcessedESGData_INTB 笔记本将数据 Microsoft Sustainability Manager 转换为中间原始数据导入表。
  • 然后, TransformRawImportESGDataToProcessedESGData_INTB 笔记本将数据从原始数据导入表转换为 ESG 数据模型 架构。