Configurar um pipeline do Delta Live Tables
Este artigo descreve a configuração básica para pipelines do Delta Live Tables usando a interface do usuário do workspace.
O Databricks recomenda o desenvolvimento de novos pipelines usando sem servidor. Para obter instruções de configuração para pipelines sem servidor, consulte Configurar um pipeline de tabelas dinâmicas Delta sem servidor.
As instruções de configuração neste artigo usam o Catálogo do Unity. Para obter instruções sobre como configurar pipelines com o metastore herdado do Hive, consulte Usar pipelines do Delta Live Tables com o metastore herdado do Hive.
Este artigo discute a funcionalidade do modo de publicação padrão atual para pipelines. Pipelines criados antes de 5 de fevereiro de 2025 podem usar o modo de publicação herdado e o esquema virtual LIVE
. Confira Esquema LIVE (herdado).
Observação
A interface do usuário tem uma opção para exibir e editar configurações em JSON. Você pode definir a maioria das configurações com a interface do usuário ou uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.
Os arquivos de configuração do JSON também são úteis ao implantar pipelines em novos ambientes ou usar a CLI ou a REST API.
Para obter uma referência completa sobre definições de configuração do JSON das Tabelas Dinâmicas Delta, confira Configurações de pipeline das Tabelas Dinâmicas Delta.
Configurar um novo pipeline do Delta Live Tables
Para configurar um novo pipeline do Delta Live Tables, faça o seguinte:
- Clique em Delta Live Tables na barra lateral.
- Clique em Criar Pipeline.
- Forneça um nome de pipeline exclusivo.
- (Opcional) Use o
seletor de arquivos para configurar notebooks e arquivos de workspace como código-fonte.
- Se você não adicionar nenhum código-fonte, um novo notebook será criado para o pipeline. O notebook é criado em um novo diretório no diretório do usuário e um link para acessar esse notebook é mostrado no campo Código-fonte no painel Detalhes do pipeline depois que você cria o pipeline.
- Você pode acessar esse notebook com a URL apresentada no campo Código-fonte no painel Detalhes do pipeline depois de criar seu pipeline.
- Use o botão Adicionar código-fonte para adicionar ativos de código-fonte adicionais.
- Se você não adicionar nenhum código-fonte, um novo notebook será criado para o pipeline. O notebook é criado em um novo diretório no diretório do usuário e um link para acessar esse notebook é mostrado no campo Código-fonte no painel Detalhes do pipeline depois que você cria o pipeline.
- Selecione Catálogo do Unity em Opções de armazenamento.
- Selecione um Catálogo. Essa configuração controla o catálogo padrão e o local de armazenamento para metadados de pipeline.
- Selecione um Esquema no catálogo. Por padrão, tabelas de streaming e exibições materializadas definidas no pipeline são criadas nesse esquema.
- Na seção Computação, marque a caixa ao lado de Usar aceleração de fótons. Para considerações adicionais de configuração de computação, consulte Opções de configuração de computação.
- Clique em Criar.
Essas configurações recomendadas criam um novo pipeline configurado para ser executado no modo Disparado e usar o canal Atual . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um agendamento. Para obter detalhes sobre como agendar pipelines, consulte Tarefa de pipeline do Delta Live Tables para trabalhos.
Opções de configuração de computação
O Databricks recomenda sempre usar o dimensionamento automático aprimorado. Os valores padrão para outras configurações de computação funcionam bem para muitos pipelines.
Os pipelines sem servidor removem as opções de configuração de computação. Para obter instruções de configuração para pipelines sem servidor, consulte Configurar um pipeline de tabelas dinâmicas Delta sem servidor.
Use as seguintes configurações para personalizar as configurações de computação:
Os administradores do workspace podem configurar uma política de cluster. As políticas de computação permitem que os administradores controlem quais opções de computação estão disponíveis para os usuários. Consulte Selecione uma política de cluster.
Opcionalmente, você pode configurar o modo Cluster para ser executado com tamanho fixo ou dimensionamento automático legado. Consulte Otimizar a utilização do cluster de pipelines do Delta Live Tables com dimensionamento automático aprimorado.
Para cargas de trabalho com dimensionamento automático habilitado, defina Operadores mínimo e Máximo de trabalhadores para definir limites para comportamentos de dimensionamento. Consulte Configurar a computação para um pipeline do Delta Live Tables.
Opcionalmente, você pode desativar a aceleração de fótons. Confira O que é o Photon?.
Use tags de cluster para ajudar a monitorar os custos associados aos pipelines do Delta Live Tables. Consulte Configurar tags de cluster.
Configure Tipos de instância para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Consulte Selecionar tipos de instância para executar um pipeline.
- Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas em seu pipeline.
- Opcionalmente, você pode selecionar um tipo de driver diferente do seu tipo de trabalhador. Isso pode ser útil para reduzir custos em pipelines com tipos de trabalho grandes e baixa utilização de computação de driver ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipelines:
- A edição avançada do produto oferece acesso a todos os recursos do Delta Live Tables. Opcionalmente, você pode executar pipelines usando as edições de produto Pro ou Core . Consulte Escolher uma edição do produto.
- Você pode optar por usar o modo de pipeline contínuo ao executar pipelines em produção. Consulte Modo de pipeline disparado vs. contínuo.
- Se o workspace não estiver configurado para o Catálogo do Unity ou se sua carga de trabalho precisar usar o metastore herdado do Hive, consulte Usar pipelines do Delta Live Tables com o metastore herdado do Hive.
- Adicione notificações para atualizações por email com base em condições de sucesso ou falha. Confira Adicionar notificações por email para eventos de pipeline.
- Use o campo Configuração para definir pares de chave-valor para o pipeline. Essas configurações servem a duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipelines do Delta Live Tables.
- Defina as configurações do pipeline e as configurações do Spark. Consulte Referência de propriedades do Delta Live Tables.
- Use o canal de visualização para testar seu pipeline em relação às alterações pendentes do tempo de execução do Delta Live Tables e testar novos recursos.
Escolher uma edição do produto
Selecione a edição do produto das Tabelas Dinâmicas Delta com os mais adequados recursos para seus requisitos de pipeline. As edições de produto a seguir estão disponíveis:
Core
para executar cargas de trabalho de ingestão de transmissão. Selecione a ediçãoCore
se o pipeline não exigir recursos avançados, como a CDC (captura de dados de alterações) ou expectativas do Delta Live Tables.Pro
para executar cargas de trabalho de ingestão de transmissão e de CDC. A edição do produtoPro
dá suporte a todos os recursosCore
, além de suporte para cargas de trabalho que exigem a atualização de tabelas com base em alterações nos dados de origem.Advanced
para executar cargas de trabalho de ingestão de transmissão, cargas de trabalho de CDC e cargas de trabalho que exigem expectativas. AAdvanced
edição do produto dá suporte aos recursos das edições eCore
inclui restrições de qualidade de dados com asPro
expectativas do Delta Live Tables.
Você pode selecionar a edição do produto ao criar ou editar um pipeline. Você poderá escolher uma edição diferente para cada pipeline. Confira a página do produto Delta Live Tables.
Observação: se o pipeline incluir recursos não compatíveis com a edição de produto selecionada, como expectativas, você receberá uma mensagem de erro explicando o motivo do erro. Em seguida, você pode editar o pipeline para selecionar a edição adequada.
Configurar código-fonte
Você pode usar o seletor de arquivos na interface do usuário do Delta Live Tables para configurar o código-fonte que define o pipeline. O código-fonte do pipeline é definido em notebooks do Databricks ou scripts do SQL ou Python armazenados em arquivos de espaço de trabalho. Ao criar ou editar o pipeline, você pode adicionar um ou mais notebooks ou arquivos de workspace ou uma combinação de notebooks e arquivos de workspace.
Como o Delta Live Tables analisa automaticamente as dependências do conjunto de dados para construir o grafo de processamento para o pipeline, você pode adicionar ativos de código-fonte em qualquer ordem.
Você pode modificar o arquivo JSON para incluir o código-fonte do Delta Live Tables definido em scripts SQL e Python armazenados em arquivos de espaço de trabalho. O exemplo a seguir inclui notebooks e arquivos do workspace:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Gerenciar dependências externas para pipelines que usam Python
O Delta Live Tables dá suporte ao uso de dependências externas em seus pipelines, como pacotes e bibliotecas do Python. Para saber mais sobre opções e recomendações para usar dependências, consulte Gerenciar dependências do Python para pipelines do Delta Live Tables.
Usar módulos Python armazenados em seu workspace do Azure Databricks
Além de implementar seu código Python em notebooks do Databricks, você pode usar pastas Git do Databricks ou arquivos de workspace para armazenar seu código como módulos Python. Armazenar o código como módulos Python é especialmente útil quando você tem funcionalidades comuns que deseja usar em diversos pipelines ou em notebooks no mesmo pipeline. Para saber como usar módulos Python com seus pipelines, consulte Importar módulos Python de pastas Git ou arquivos de workspace.