更新 Common Data Model 数据源以使用 Delta 表

使用 Common Data Model 表更新现有数据连接,并移动到增量格式表,无需删除和重新创建依赖于数据连接的现有配置。

连接到以 Delta 格式存储的数据的主要原因:

  • 直接导入 Delta 格式数据,节省时间和工作量。
  • 消除与转换和存储 Lakehouse 数据副本相关的计算和存储成本。
  • 自动将数据引入的可靠性提高到由 Delta 版本控制提供的 Customer Insights - Data。

Delta 是在 Databricks Lakehouse 平台中存储数据和表的基础 Delta Lake 中引入的一个术语。 Delta Lake 是一个开源存储层,为大数据工作负载引入 ACID(原子性、一致性、隔离性和持久性)事务。 有关详细信息,请参阅 Delta Lake 文档页面

先决条件

  • Azure Data Lake Storage 必须与 Customer Insights - Data 位于同一租户和 Azure 区域。

  • 要连接到受防火墙保护的存储,请设置 Azure 专用链接

  • Customer Insights - Data 服务主体必须具有存储 Blob 数据参与者权限才能访问存储帐户。 有关详细信息,请参阅向服务主体授予访问存储帐户的权限

  • 设置或更新数据源的用户至少需要 Azure Data Lake Storage 帐户的存储 Blob 数据读者权限。

  • 联机服务中存储的数据可以存储在与处理或存储数据不同的位置。 导入或连接到联机服务中存储的数据即表示您同意传输数据。 在 Microsoft 信任中心了解更多信息

  • Customer Insights - Data 支持 Databricks 阅读器版本 2。 不支持使用需要 Databricks 阅读器版本 3 或更高版本的功能的 Delta 表。 了解详细信息:支持的 Databricks 功能

  • Delta 表必须位于存储容器中的一个文件夹中,不能位于容器根目录中。 例如:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Delta 表及其架构必须与现有 Common Data Model 数据源中的表匹配,并且位于同一存储容器中。 新数据文件夹中的表必须与 Common Data Model 数据源中选定的表完全匹配。 表名称及其架构必须完全匹配。 在 Delta 中,表名称与存储数据的文件夹名称相同。 因此,文件夹名称必须与 Common Data Model 数据源中选定的表完全匹配。 否则,更新将失败。

    例如,如果选定的 Common Data Model 数据源表是 Table1 和 Table2,则您选择用于更新的文件夹必须在层次结构中显示 Table1 和 Table2。

    storageaccountroot/
    DeltaDataRoot/
        Table1/
        Table2/
    

将 Common Data Model 数据表更新为增量表

  1. 转到数据>数据源

  2. 选择 Azure Data Lake Common Data Model 数据源,然后选择更新为 Delta 表。 或者,如果您在编辑 Common Data Model 数据源,从添加表页面选择开始更新

    显示 Common Data Model 数据源的数据源页面,突出显示“更新为 Delta 表”。

  3. 选择浏览,导航到包含 Delta 格式数据的文件夹,完全匹配选定的 Azure Data Lake 数据源表。 选择它,然后选择更新数据源

    数据源页面将打开,显示处于正在刷新状态的新数据源。

    重要提示

    不要停止刷新过程,因为它可能会对更新数据源产生负面影响。

    小费

    任务和流程有状态。 大多数流程依赖于其他上游流程,例如数据源和数据分析刷新

    选择状态以打开进度详细信息窗格,并查看任务的进度。 要取消作业,选择窗格底部的取消作业

    在每个任务下,您可以选择查看详细信息来获取更多进度信息,例如处理时间、上次处理日期以及与任务或流程相关的任何适用的错误和警告。 选择面板底部的查看系统状态可以查看系统中的其他流程。

我们建议您继续通过现有管道将数据流式传输到 Data Lake Storage 位置,并维护清单和架构,直到您确定更新成功,一切均按预期运行。

将 Common Data Model 表的转换还原为 Delta 表

如果您尝试将 Azure Data Lake Common Data Model 数据源更新为 Delta 表,但过程失败,请执行以下步骤。

先决条件

  • 您的组织继续通过管道流式传输 Data Lake Storage 数据。
  • 您的组织已维护 Data Lake Storage 清单和架构。

还原回 Azure Data Lake Common Data Model 数据源

  1. 转到数据>数据源

  2. 选择 Azure Data Lake Common Data Model 数据源,然后选择还原为 Common Data Model 表

  3. 确认您要还原。 数据源页面将打开,显示处于正在刷新状态的新数据源。

    重要提示

    不要停止刷新过程,因为它可能会对还原数据源产生负面影响。