Partilhar via


Configurar um pipeline de DLT

Este artigo descreve a configuração básica para pipelines DLT usando a UI do espaço de trabalho.

A Databricks recomenda o desenvolvimento de novos pipelines usando computação sem servidor (serverless). Para obter instruções de configuração para pipelines sem servidor, consulte Configurar um pipeline DLT sem servidor.

As instruções de configuração neste artigo usam o Unity Catalog. Para obter instruções sobre como configurar pipelines com o antigo metastore Hive, consulte Utilizar pipelines do DLT com o antigo metastore Hive.

Este artigo discute a funcionalidade para o modo de publicação padrão atual para pipelines. Os pipelines criados antes de 5 de fevereiro de 2025 podem usar o modo de publicação herdado e o esquema LIVE virtual. Veja o esquema AO VIVO (legado) .

Observação

A interface do usuário tem uma opção para exibir e editar configurações em JSON. Você pode definir a maioria das configurações com a interface do usuário ou uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.

Os arquivos de configuração JSON também são úteis ao implantar pipelines em novos ambientes ou usar a CLI ou API REST.

Para obter uma referência completa às definições de configuração JSON DLT, consulte as configurações de pipeline DLT em .

Configurar um novo fluxo de trabalho de DLT

Para configurar um novo pipeline de DLT, faça o seguinte:

  1. Clique DLT na barra lateral.
  2. Clique Criar Linha de Processamento.
  3. Forneça um nome exclusivo para o Pipeline.
  4. (Opcional) Use o ícone do seletor de arquivos para configurar blocos de anotações e arquivos de espaço de trabalho como código-fonte.
    • Se você não adicionar nenhum código-fonte, um novo bloco de anotações será criado para o pipeline. O bloco de anotações é criado num novo diretório dentro do seu diretório de utilizador e um link para aceder a este bloco de anotações é mostrado no campo de código-fonte no painel de detalhes do pipeline depois de criar o pipeline.
      • Você pode aceder a este notebook com a URL apresentada sob o campo Código-fonte no painel Detalhes do Pipeline, depois de criar o seu pipeline.
    • Use o botão Adicionar código-fonte para adicionar ativos de código-fonte adicionais.
  5. Selecione Catálogo Unity em Opções de armazenamento.
  6. Selecione um Catálogo . Essa configuração controla o catálogo padrão e o local de armazenamento dos metadados do pipeline.
  7. Selecione um Esquema no catálogo. Por padrão, tabelas de streaming e exibições materializadas definidas no pipeline são criadas nesse esquema.
  8. Na seção de computação , marque a caixa ao lado de Usar Aceleração de Fóton. Para obter considerações adicionais sobre configuração de computação, consulte Opções de configuração de computação.
  9. Clique Criar.

Essas configurações recomendadas criam um novo pipeline configurado para ser executado no modo acionado e usar o canal atual. Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um cronograma. Para obter detalhes sobre o agendamento de pipelines, consulte tarefa de pipeline DLT para trabalhos.

Opções de configuração de computação

A Databricks recomenda sempre a utilização de Enhanced autoscaling. Os valores padrão para outras configurações de computação funcionam bem para muitos pipelines.

Os pipelines sem servidor removem as opções de configuração de computação. Para obter instruções de configuração para pipelines sem servidor, consulte Configurar um pipeline DLT sem servidor.

Use as seguintes configurações para personalizar as configurações de computação:

  • Utilize etiquetas de cluster para ajudar a monitorizar os custos associados aos pipelines de DLT. Consulte Configurar tags de cluster.
  • Configure tipos de instância para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Ver Selecionar tipos de instância para executar pipeline.
    • Selecione um tipo de Worker otimizado para as cargas de trabalho configuradas no seu pipeline.
    • Opcionalmente, você pode selecionar um tipo de driver que seja diferente do seu tipo de trabalhador. Isso pode ser útil para reduzir custos em pipelines com grandes tipos de trabalho e baixa utilização de computação de driver ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipelines:

  • A edição do produto Advanced dá-lhe acesso a todas as funcionalidades DLT. Opcionalmente, você pode executar pipelines usando as edições do produto Pro ou Core. Veja Escolha uma edição de produto.
  • Você pode optar por usar o modo de Contínuo de pipeline ao executar pipelines em produção. Consulte Modo de pipeline acionado versus contínuo.
  • Se o seu espaço de trabalho não estiver configurado para o Unity Catalog ou se a sua carga de trabalho precisar usar o metastore herdado do Hive, consulte Usar pipelines DLT com metastore herdado do Hive.
  • Adicione Notificações para atualizações por e-mail com base em condições de sucesso ou falha. Consulte Adicionar notificações por e-mail para eventos de pipeline.
  • Use o campo de Configuração para definir pares chave-valor para o pipeline. Estas configurações servem duas finalidades:
    • Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipelines DLT.
    • Configure as configurações do pipeline e do Spark. Consulte as propriedades de referência DLT em .
  • Use o canal Preview para testar o pipeline face a alterações pendentes no runtime de DLT e experimentar novos recursos.

Escolha uma edição do produto

Selecione a edição do produto DLT com os melhores recursos para seus requisitos de pipeline. Estão disponíveis as seguintes edições do produto:

  • Core para executar cargas de trabalho de ingestão de streaming. Selecione a edição Core se o seu pipeline não necessitar de funcionalidades avançadas, como a captura de dados alterados (CDC) ou expectativas de DLT.
  • Pro para executar cargas de trabalho de streaming e CDC. O Pro product edition suporta todos os recursos de Core, além de suporte para cargas de trabalho que exigem a atualização de tabelas com base em alterações nos dados de origem.
  • Advanced executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que requerem requisitos específicos. A edição Advanced do produto oferece suporte aos recursos das edições Core e Pro, e inclui restrições de qualidade de dados associadas às expectativas DLT.

Você pode selecionar a edição do produto ao criar ou editar um pipeline. Você pode escolher uma edição diferente para cada pipeline. Consulte a página do produto DLT.

Nota: Se o pipeline incluir recursos não suportados pela edição do produto selecionada, como expectativas, você receberá uma mensagem de erro explicando o motivo do erro. Em seguida, você pode editar o pipeline para selecionar a edição apropriada.

Configurar código-fonte

Você pode usar o seletor de arquivos na interface do usuário DLT para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido nos notebooks do Databricks ou em scripts SQL ou Python armazenados nos arquivos do espaço de trabalho. Ao criar ou editar seu pipeline, você pode adicionar um ou mais blocos de anotações ou arquivos de espaço de trabalho ou uma combinação de blocos de anotações e arquivos de espaço de trabalho.

Como a DLT analisa automaticamente as dependências do conjunto de dados para construir o gráfico de processamento para seu pipeline, você pode adicionar ativos de código-fonte em qualquer ordem.

Você pode modificar o arquivo JSON para incluir o código-fonte DLT definido em scripts SQL e Python armazenados em arquivos de espaço de trabalho. O exemplo a seguir inclui blocos de anotações e arquivos de espaço de trabalho:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Gerenciar dependências externas para pipelines que usam Python

DLT suporta o uso de dependências externas em seus pipelines, como pacotes Python e bibliotecas. Para saber mais sobre opções e recomendações para o uso de dependências, consulte Manage Python dependencies for DLT pipelines.

Usar módulos Python armazenados em seu espaço de trabalho do Azure Databricks

Além de implementar seu código Python em notebooks Databricks, você pode usar pastas Git Databricks ou arquivos de espaço de trabalho para armazenar seu código como módulos Python. Armazenar o teu código como módulos Python é especialmente útil quando tens funções comuns que desejas utilizar em várias pipelines ou notebooks dentro da mesma pipeline. Para saber como usar módulos Python com seus pipelines, consulte Importar módulos Python de pastas Git ou arquivos de espaço de trabalho.