LakeFlow Connect

重要

LakeFlow Connect 目前以封闭的公共预览版提供。 若要参与预览,请联系你的 Databricks 帐户团队。

本文概述 Databricks LakeFlow Connect,它提供用于从企业应用程序和数据库引入数据的内置连接器。

什么是 LakeFlow Connect?

Databricks LakeFlow Connect 提供内置连接器用于从企业应用程序和数据库引入数据。 最终的引入管道由 Unity Catalog 管理,并由无服务器计算和增量实时表提供支持。

LakeFlow Connect 利用高效的增量读写来使数据引入变得更快、更具可伸缩性、更具经济效益,同时使数据保持新鲜以供下游使用。

SaaS 连接器组件

SaaS 连接器由以下组件建模:

  • 连接:存储数据库的身份验证详细信息的 Unity Catalog 安全对象。
  • 引入管道:将暂存的数据引入 Delta 表中。 此组件建模为无服务器 DLT 管道。

SaaS 连接器组件图

数据库连接器组件

数据库连接器由以下组件建模:

  • 连接:存储数据库的身份验证详细信息的 Unity Catalog 安全对象。
  • 网关:从源数据库提取数据,并在传输过程中保持事务的完整性。 对于基于云的数据库,网关配置为具有经典计算的 DLT 管道。
  • 暂存存储:一个 Unity Catalog 卷,来自网关的数据在应用于 Delta 表之前暂存于其中。 部署网关时会创建暂存存储帐户,该帐户存在于指定的目录和架构中。
  • 引入管道:将暂存的数据引入 Delta 表中。 此组件建模为无服务器 DLT 管道。

数据库连接器组件图

LakeFlow Connect、Lakehouse Federation 与Delta Sharing

使用 Lakehouse Federation 可以在不移动数据的情况下查询外部数据源。 使用 Delta Sharing 可以跨平台、云和区域安全地共享实时数据。 Databricks 建议使用 LakeFlow Connect 进行引入,因为它可以进行缩放以适应高数据量、低延迟查询和第三方 API 限制。 但是,你可能希望在不移动数据的情况下查询数据。

在 LakeFlow Connect、Lakehouse Federation 和 Delta Sharing 之间进行选择时,对于以下场景,可以选择 Delta Sharing

  • 限制数据重复。
  • 查询尽可能最新的数据。

对于以下场景,可以选择 Lakehouse Federation

  • 针对 ETL 管道执行特别报告或概念证明工作。

LakeFlow Connect、自动加载程序

LakeFlow Connect 提供内置连接器,可用于从企业应用程序和数据库中以增量方式引入数据。 自动加载程序是云对象存储的连接器,可用于在文件到达 S3、ADLS 和 GCS 时以增量方式引入文件。 它与结构化流式处理和 Delta Live Tables 兼容,但不与 LakeFlow Connect 集成。

LakeFlow Connect 是否可以写回到第三方应用和数据库?

否。 如果你对此功能感兴趣,请联系你的帐户团队。

LakeFlow Connect 的费用是多少?

目前,客户只需为从源(如果连接到 Salesforce 之类的企业应用程序)或暂存卷(如果连接到 SQL Server 之类的数据库)加载数据而需要使用的无服务器增量实时表付费。 Lakeflow Connect 的最终定价模型可能包括额外费用,将于不久后正式公布。

在我们的定价页上可以查看无服务器增量实时表定价。