LakeFlow Connect

重要

LakeFlow Connect 目前以封闭的公共预览版提供。 若要参与预览,请联系你的 Databricks 帐户团队。

本文对 Databricks LakeFlow Connect 进行了概述,它提供完全托管的连接器,用于将数据从 Salesforce 等 SaaS 应用程序和 SQL Server 等数据库导入 Azure 上的 Databricks lakehouse。 最终的引入管道由 Unity Catalog 管理,并由无服务器计算和增量实时表提供支持。 LakeFlow Connect 利用高效的增量读写来使数据引入变得更快、更具可伸缩性、更具经济效益,同时使数据保持新鲜以供下游使用。

SaaS 连接器组件

SaaS 连接器由以下组件建模:

  • 连接:存储数据库的身份验证详细信息的 Unity Catalog 安全对象。
  • 引入管道:将暂存的数据引入 Delta 表中。 此组件建模为无服务器 DLT 管道。

SaaS 连接器组件图

数据库连接器组件

数据库连接器由以下组件建模:

  • 连接:存储数据库的身份验证详细信息的 Unity Catalog 安全对象。
  • 网关:从源数据库提取数据,并在传输过程中保持事务的完整性。 对于基于云的数据库,网关配置为具有经典计算的 DLT 管道。
  • 暂存存储:一个 Unity Catalog 卷,来自网关的数据在应用于 Delta 表之前暂存于其中。 部署网关时会创建暂存存储帐户,该帐户存在于指定的目录和架构中。
  • 引入管道:将暂存的数据引入 Delta 表中。 此组件建模为无服务器 DLT 管道。

数据库连接器组件图

LakeFlow Connect、Lakehouse Federation 与Delta Sharing

使用 Lakehouse Federation 可以在不移动数据的情况下查询外部数据源。 使用 Delta Sharing 可以跨平台、云和区域安全地共享实时数据。 Databricks 建议使用 LakeFlow Connect 进行引入,因为它可以进行缩放以适应高数据量、低延迟查询和第三方 API 限制。 但是,你可能希望在不移动数据的情况下查询数据。

在 LakeFlow Connect、Lakehouse Federation 和 Delta Sharing 之间进行选择时,对于以下场景,可以选择 Delta Sharing

  • 限制数据重复。
  • 查询尽可能最新的数据。

对于以下场景,可以选择 Lakehouse Federation

  • 针对 ETL 管道执行特别报告或概念证明工作。

LakeFlow Connect、自动加载程序

LakeFlow Connect 提供内置连接器,可用于从企业应用程序和数据库中以增量方式引入数据。 自动加载程序是云对象存储的连接器,可用于在文件到达 S3、ADLS 和 GCS 时以增量方式引入文件。 它与结构化流式处理和 Delta Live Tables 兼容,但不与 LakeFlow Connect 集成。

LakeFlow Connect 是否可以写回到第三方应用和数据库?

否。 如果你对此功能感兴趣,请联系你的帐户团队。

LakeFlow Connect 的费用是多少?

目前,客户只需为从源(如果连接到 Salesforce 之类的企业应用程序)或暂存卷(如果连接到 SQL Server 之类的数据库)加载数据而需要使用的无服务器增量实时表付费。 Lakeflow Connect 的最终定价模型可能包括额外费用,将于不久后正式公布。

在我们的定价页上可以查看无服务器增量实时表定价。