Partilhar via


Conexão Lakeflow

Importante

SaaS gerenciados e conectores de banco de dados fornecidos pelo Lakeflow Connect estão em vários estados de lançamento .

Este artigo fornece uma visão geral do Databricks Lakeflow Connect, que oferece conectores totalmente gerenciados para a ingestão de dados de aplicativos SaaS, como o Salesforce, e bancos de dados, como o SQL Server, em um lago do Azure Databricks. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e DLT. O Lakeflow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Componentes do conector SaaS

Um conector SaaS é modelado pelos seguintes componentes:

  • Connection: Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
  • Pipeline de ingestão: ingere os dados preparados em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.

Diagrama de componentes do conector SaaS

Componentes do conector de banco de dados

Um conector de banco de dados é modelado pelos seguintes componentes:

  • Connection: Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
  • Gateway: extrai dados do banco de dados de origem e mantém a integridade das transações durante a transferência. Para bancos de dados baseados em nuvem, o gateway é configurado como um pipeline DLT com computação clássica.
  • Armazenamento de preparação: um volume do Unity Catalog onde os dados do gateway são armazenados temporariamente antes de serem aplicados a uma tabela Delta. A conta de armazenamento temporário é criada ao implementar o gateway e existe dentro do catálogo e esquema que especificar.
  • Pipeline de ingestão: ingere os dados previamente preparados em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.

Diagrama de componentes do conector de banco de dados

Lakeflow Connect vs. Lakehouse Federation vs. Delta Sharing

A Lakehouse Federation permite que você consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que você compartilhe dados ao vivo com segurança entre plataformas, nuvens e regiões. O Databricks recomenda a ingestão usando o Lakeflow Connect porque ele é dimensionado para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, convém consultar seus dados sem movê-los.

Quando você tiver uma escolha entre Lakeflow Connect, Lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:

  • Limitar a duplicação de dados.
  • Consultando os dados mais recentes possíveis.

Escolha Lakehouse Federation para os seguintes cenários:

  • Relatórios ad hoc ou trabalho de prova de conceito nos seus pipelines de ETL.

Lakeflow Connect vs. carregador automático

O Lakeflow Connect fornece conectores integrados que permitem a ingestão incremental de dados de aplicativos corporativos e bancos de dados. O Auto Loader é um conector para armazenamento de objetos na nuvem que permite ingerir arquivos incrementalmente à medida que eles chegam no S3, ADLS e GCS. É compatível com Structured Streaming e DLT, mas não se integra com o Lakeflow Connect.

O Lakeflow Connect pode gravar de volta em aplicativos e bancos de dados de terceiros?

N.º Se você estiver interessado nessa funcionalidade, entre em contato com a equipe da sua conta.

Qual é o custo do Lakeflow Connect?

Por enquanto, os clientes são cobrados apenas pelo uso do DLT sem servidor necessário para carregar dados da origem (no caso de ligação a uma aplicação empresarial, como o Salesforce) ou do volume de preparação (no caso de ligação a uma base de dados, como o SQL Server). O modelo de preço final para o Lakeflow Connect pode incluir taxas adicionais e será anunciado no futuro.

O preço da tecnologia DLT sem servidor é visível na nossa página de preços .