Conexão Lakeflow
Importante
SaaS gerenciados e conectores de banco de dados fornecidos pelo Lakeflow Connect estão em vários estados de lançamento .
Este artigo fornece uma visão geral do Databricks Lakeflow Connect, que oferece conectores totalmente gerenciados para a ingestão de dados de aplicativos SaaS, como o Salesforce, e bancos de dados, como o SQL Server, em um lago do Azure Databricks. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e DLT. O Lakeflow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.
Componentes do conector SaaS
Um conector SaaS é modelado pelos seguintes componentes:
- Connection: Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Pipeline de ingestão: ingere os dados preparados em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.
Componentes do conector de banco de dados
Um conector de banco de dados é modelado pelos seguintes componentes:
- Connection: Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Gateway: extrai dados do banco de dados de origem e mantém a integridade das transações durante a transferência. Para bancos de dados baseados em nuvem, o gateway é configurado como um pipeline DLT com computação clássica.
- Armazenamento de preparação: um volume do Unity Catalog onde os dados do gateway são armazenados temporariamente antes de serem aplicados a uma tabela Delta. A conta de armazenamento temporário é criada ao implementar o gateway e existe dentro do catálogo e esquema que especificar.
- Pipeline de ingestão: ingere os dados previamente preparados em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.
Lakeflow Connect vs. Lakehouse Federation vs. Delta Sharing
A Lakehouse Federation permite que você consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que você compartilhe dados ao vivo com segurança entre plataformas, nuvens e regiões. O Databricks recomenda a ingestão usando o Lakeflow Connect porque ele é dimensionado para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, convém consultar seus dados sem movê-los.
Quando você tiver uma escolha entre Lakeflow Connect, Lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:
- Limitar a duplicação de dados.
- Consultando os dados mais recentes possíveis.
Escolha Lakehouse Federation para os seguintes cenários:
- Relatórios ad hoc ou trabalho de prova de conceito nos seus pipelines de ETL.
Lakeflow Connect vs. carregador automático
O Lakeflow Connect fornece conectores integrados que permitem a ingestão incremental de dados de aplicativos corporativos e bancos de dados. O Auto Loader é um conector para armazenamento de objetos na nuvem que permite ingerir arquivos incrementalmente à medida que eles chegam no S3, ADLS e GCS. É compatível com Structured Streaming e DLT, mas não se integra com o Lakeflow Connect.
O Lakeflow Connect pode gravar de volta em aplicativos e bancos de dados de terceiros?
N.º Se você estiver interessado nessa funcionalidade, entre em contato com a equipe da sua conta.
Qual é o custo do Lakeflow Connect?
Por enquanto, os clientes são cobrados apenas pelo uso do DLT sem servidor necessário para carregar dados da origem (no caso de ligação a uma aplicação empresarial, como o Salesforce) ou do volume de preparação (no caso de ligação a uma base de dados, como o SQL Server). O modelo de preço final para o Lakeflow Connect pode incluir taxas adicionais e será anunciado no futuro.
O preço da tecnologia DLT sem servidor é visível na nossa página de preços .