Compartir a través de


LakeFlow Connect

Importante

LakeFlow Connect está en versión preliminar pública. Para participar en la versión preliminar, póngase en contacto con su equipo de cuentas de Databricks.

En este artículo se proporciona información general sobre Databricks LakeFlow Connect, que ofrece conectores integrados para la ingesta de datos de bases de datos y aplicaciones empresariales.

¿Qué es LakeFlow Connect?

Databricks LakeFlow Connect, que ofrece conectores integrados para la ingesta de bases de datos y aplicaciones empresariales. La canalización de ingesta resultante se rige por Unity Catalog y cuenta con tecnología de proceso sin servidor y Delta Live Tables.

LakeFlow Connect aprovecha las lecturas y escrituras incrementales eficaces para que la ingesta de datos sea más rápida, escalable y rentable, mientras que los datos permanecen frescos para el consumo de bajada.

Componentes de conectores SaaS

Los siguientes componentes SaaS modelan un conector de base de datos:

  • Connection: Un objeto protegible de Unity Catalog que almacena los detalles de autenticación de la base de datos.
  • Canalización de ingesta: Ingiere los datos almacenados provisionalmente en tablas Delta. Este componente se modela como una canalización DLT sin servidor.

Diagrama de componentes de conectores SaaS

Componentes del conector de base de datos

Los siguientes componentes modelan un conector de base de datos:

  • Connection: Un objeto protegible de Unity Catalog que almacena los detalles de autenticación de la base de datos.
  • Gateway: Extrae datos de la base de datos de origen y mantiene la integridad de las transacciones durante la transferencia. En el caso de las bases de datos basadas en la nube, la puerta de enlace se configura como una canalización DLT con proceso clásico.
  • Almacenamiento provisional: Un volumen de Unity Catalog donde se almacenan provisionalmente los datos de la puerta de enlace antes de aplicarse a una tabla Delta. La cuenta de almacenamiento de ensayo se crea cuando despliegas la pasarela y existe dentro del catálogo y esquema que especifiques.
  • Canalización de ingesta: Ingiere los datos almacenados provisionalmente en tablas Delta. Este componente se modela como una canalización DLT sin servidor.

Diagrama de componentes del conector de bases de datos

LakeFlow Connect frente a Federación de Lakehouse frente a Delta Sharing

La Federación de Lakehouse permite consultar orígenes de datos externos sin mover los datos. Delta Sharing permite compartir datos activos de forma segura entre plataformas, nubes y regiones. Databricks recomienda la ingesta mediante LakeFlow Connect, ya que se escala para dar cabida a grandes volúmenes de datos, consultas de baja latencia y límites de API de terceros. Sin embargo, es posible que quiera consultar los datos sin moverlos.

Cuando tenga una opción entre LakeFlow Connect, Lakehouse Federation y Delta Sharing, elija Delta Sharing para los escenarios siguientes:

  • Limitar la duplicación de datos.
  • Consultar los datos más recientes posibles.

Elija la Federación de Lakehouse para los escenarios siguientes:

  • Creación de informes ad hoc o trabajo de prueba de concepto en las canalizaciones de ETL.

LakeFlow Connect frente a Cargador automático

LakeFlow Connect proporciona conectores integrados que permiten ingerir datos de forma incremental de aplicaciones y bases de datos empresariales. El Cargador automático es un conector para el almacenamiento de objetos en la nube que permite ingerir archivos incrementalmente a medida que llegan a S3, ADLS y GCS. Es compatible con Structured Streaming y Delta Live Tables, pero no se integra con LakeFlow Connect.

¿Puede LakeFlow Connect volver a escribir en bases de datos y aplicaciones de terceros?

No. Si está interesado en esta funcionalidad, póngase en contacto con el equipo de su cuenta.

¿Cuánto vale LakeFlow Connect?

Por ahora, solo se factura a los clientes por el uso de Delta Live Tables sin servidor necesario para cargar datos desde el origen (si se conectan a una aplicación empresarial, como Salesforce) o desde el volumen de almacenamiento provisional (si se conectan a una base de datos, como SQL Server). El modelo de precios final de Lakeflow Connect podría incluir cargos adicionales y se anunciará en el futuro.

Los precios de Delta Live Tables sin servidor están visibles en nuestra página de precios.