更新 Common Data Model 数据源以使用 Delta 表
使用 Common Data Model 表更新现有数据连接,并移动到增量格式表,无需删除和重新创建依赖于数据连接的现有配置。
连接到以 Delta 格式存储的数据的主要原因:
- 直接导入 Delta 格式数据,节省时间和工作量。
- 消除与转换和存储 Lakehouse 数据副本相关的计算和存储成本。
- 自动将数据引入的可靠性提高到由 Delta 版本控制提供的 Customer Insights - Data。
Delta 是在 Databricks Lakehouse 平台中存储数据和表的基础 Delta Lake 中引入的一个术语。 Delta Lake 是一个开源存储层,为大数据工作负载引入 ACID(原子性、一致性、隔离性和持久性)事务。 有关详细信息,请参阅 Delta Lake 文档页面。
先决条件
Azure Data Lake Storage 必须与 Customer Insights - Data 位于同一租户和 Azure 区域。
要连接到受防火墙保护的存储,请设置 Azure 专用链接。
Customer Insights - Data 服务主体必须具有存储 Blob 数据参与者权限才能访问存储帐户。 有关详细信息,请参阅向服务主体授予访问存储帐户的权限。
设置或更新数据源的用户至少需要 Azure Data Lake Storage 帐户的存储 Blob 数据读者权限。
联机服务中存储的数据可以存储在与处理或存储数据不同的位置。 导入或连接到联机服务中存储的数据即表示您同意传输数据。 在 Microsoft 信任中心了解更多信息。
Customer Insights - Data 支持 Databricks 阅读器版本 2。 不支持使用需要 Databricks 阅读器版本 3 或更高版本的功能的 Delta 表。 了解详细信息:支持的 Databricks 功能。
Delta 表必须位于存储容器中的一个文件夹中,不能位于容器根目录中。 例如:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
Delta 表及其架构必须与现有 Common Data Model 数据源中的表匹配,并且位于同一存储容器中。 新数据文件夹中的表必须与 Common Data Model 数据源中选定的表完全匹配。 表名称及其架构必须完全匹配。 在 Delta 中,表名称与存储数据的文件夹名称相同。 因此,文件夹名称必须与 Common Data Model 数据源中选定的表完全匹配。 否则,更新将失败。
例如,如果选定的 Common Data Model 数据源表是 Table1 和 Table2,则您选择用于更新的文件夹必须在层次结构中显示 Table1 和 Table2。
storageaccountroot/ DeltaDataRoot/ Table1/ Table2/
将 Common Data Model 数据表更新为增量表
转到数据>数据源。
选择 Azure Data Lake Common Data Model 数据源,然后选择更新为 Delta 表。 或者,如果您在编辑 Common Data Model 数据源,从添加表页面选择开始更新。
选择浏览,导航到包含 Delta 格式数据的文件夹,完全匹配选定的 Azure Data Lake 数据源表。 选择它,然后选择更新数据源。
数据源页面将打开,显示处于正在刷新状态的新数据源。
重要提示
不要停止刷新过程,因为它可能会对更新数据源产生负面影响。
我们建议您继续通过现有管道将数据流式传输到 Data Lake Storage 位置,并维护清单和架构,直到您确定更新成功,一切均按预期运行。
将 Common Data Model 表的转换还原为 Delta 表
如果您尝试将 Azure Data Lake Common Data Model 数据源更新为 Delta 表,但过程失败,请执行以下步骤。
先决条件
- 您的组织继续通过管道流式传输 Data Lake Storage 数据。
- 您的组织已维护 Data Lake Storage 清单和架构。
还原回 Azure Data Lake Common Data Model 数据源
转到数据>数据源。
选择 Azure Data Lake Common Data Model 数据源,然后选择还原为 Common Data Model 表。
确认您要还原。 数据源页面将打开,显示处于正在刷新状态的新数据源。
重要提示
不要停止刷新过程,因为它可能会对还原数据源产生负面影响。