Ingerir dados do armazenamento de objetos na nuvem

Artigo
01/23/2025

Este artigo lista as maneiras de configurar a ingestão incremental do armazenamento de objetos na nuvem.

Adicionar interface do usuário de dados

Para aprender a utilizar a interface de adição de dados para criar um table gerido a partir de dados armazenados em objetos na nuvem, consulte Carregar dados usando um local externo do Unity Catalog.

Bloco de anotações ou editor SQL

Esta seção descreve opções para configurar a ingestão incremental do armazenamento de objetos na nuvem usando um bloco de anotações ou o editor SQL do Databricks.

Carregador Automático

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem configuração adicional. O Auto Loader fornece uma fonte de Streaming Estruturado chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a fonte processa cloudFiles automaticamente novos arquivos à medida que eles chegam, com a opção de também processar arquivos existentes nesse diretório.

COPY INTO

Com o COPY INTO, os utilizadores de SQL podem carregar dados de forma idempotente e incremental do armazenamento de objetos na nuvem para o Delta tables. Você pode usar COPY INTO em Databricks SQL, notebooks e Databricks Jobs.

Quando usar COPY INTO e quando usar o Auto Loader

Aqui estão algumas coisas a considerar ao escolher entre Auto Loader e COPY INTO:

Se você vai ingerir arquivos na ordem de milhares ao longo do tempo, você pode usar COPY INTOo . Se você está esperando arquivos na ordem de milhões ou mais ao longo do tempo, use Auto Loader. O Auto Loader requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Auto Loader é menos caro e mais eficiente em escala.
Se os seus dados schema vão evoluir com frequência, Auto Loader fornece melhores tipos de dados primitivos para a inferência e evolução de schema. Consulte Configurar schema inferência e evolução no Auto Loader para obter mais detalhes.
Carregar um subconjunto de arquivos recarregados pode ser um pouco mais fácil de gerenciar com COPY INTOo . Com o Auto Loader, é mais difícil reprocessar um select subconjunto de ficheiros. No entanto, você pode usar COPY INTO para recarregar o subconjunto de arquivos enquanto um fluxo do carregador automático está sendo executado simultaneamente.
Para uma experiência de ingestão de ficheiros ainda mais escalável e robusta, o Auto Loader permite que os utilizadores de SQL tirem partido do streaming tables. Consulte Carregar dados usando streaming tables no Databricks SQL.

Para uma breve visão geral e demonstração do Auto Loader e COPY INTO, assista ao seguinte vídeo do YouTube (2 minutos).

Automatize o ETL com o Delta Live Tables e o Auto Loader

Você pode simplificar a implantação de infraestrutura de ingestão escalável e incremental com o Auto Loader e o Delta Live Tables. O Delta Live Tables não usa a execução interativa padrão encontrada em notebooks, em vez disso, enfatiza a implantação de infraestrutura pronta para produção.

Ferramentas de ingestão de terceiros

O Databricks valida integrações de parceiros de tecnologia que permitem ingerir a partir de várias fontes, incluindo armazenamento de objetos na nuvem. Essas integrações permitem a ingestão de dados escaláveis e de baixo código de várias fontes no Azure Databricks. Consulte Parceiros tecnológicos. Alguns parceiros de tecnologia são apresentados em O que é o Databricks Partner Connect?, que fornece uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos seus dados lakehouse.

Partilhar via