Configurar um pipeline DLT sem servidor
Este artigo descreve configurações para pipelines DLT sem servidor.
A Databricks recomenda o desenvolvimento de novos pipelines usando tecnologia serverless (sem servidor). Algumas cargas de trabalho podem exigir a configuração da computação clássica ou o trabalho com o metastore herdado do Hive. Consulte Configurar computação para um pipeline DLT e Usar pipelines DLT com o metastore Hive herdado.
Observação
- Os pipelines sem servidor sempre usam o Unity Catalog. Unity Catalog for DLT está em visualização pública e tem algumas limitações. Consulte Utilize o Catálogo Unity com os seus pipelines de DLT.
- Para obter limitações de computação sem servidor, consulte Limitações de computação sem servidor.
- Não é possível adicionar manualmente configurações de computação em um objeto
clusters
na configuração JSON para um pipeline sem servidor. Tentar fazer isso resulta em um erro.
- Se você precisar usar uma conexão de Link Privado do Azure com seus pipelines DLT sem servidor, entre em contato com seu representante do Databricks.
Requerimentos
- Seu espaço de trabalho deve ter o Unity Catalog habilitado para usar pipelines sem servidor.
- O seu espaço de trabalho deve estar em uma região habilitada para sem servidor.
Configuração recomendada para pipelines sem servidor
Importante
A permissão de criação de cluster não é necessária para configurar pipelines sem servidor. Por padrão, todos os usuários do espaço de trabalho podem usar pipelines sem servidor.
Os pipelines sem servidor removem a maioria das opções de configuração, pois o Azure Databricks gerencia toda a infraestrutura. Para configurar um pipeline sem servidor, faça o seguinte:
- Clique em DLT na barra lateral.
- Clique Criar Canalização.
- Forneça um nome exclusivo para o Pipeline .
- Marque a caixa ao lado de (sem servidor).
- (Opcional) Use o ícone do seletor de arquivos
para configurar cadernos e arquivos de espaço de trabalho como código-fonte.
- Se você não adicionar nenhum código-fonte, um novo bloco de anotações será criado para o pipeline. O caderno é criado num novo diretório no seu diretório de utilizador e um link para aceder a este caderno é mostrado no campo código-fonte no painel detalhes do pipeline depois de criar o pipeline.
- Um link para aceder a este bloco de notas está presente no campo código-fonte no painel detalhes do pipeline após ter criado o seu pipeline.
- Use o botão Adicionar código-fonte para adicionar ativos de código-fonte adicionais.
- Se você não adicionar nenhum código-fonte, um novo bloco de anotações será criado para o pipeline. O caderno é criado num novo diretório no seu diretório de utilizador e um link para aceder a este caderno é mostrado no campo código-fonte no painel detalhes do pipeline depois de criar o pipeline.
- Selecione um Catálogo para publicar dados.
- Selecione um Esquema no catálogo. Todas as tabelas de streaming e exibições materializadas definidas no pipeline são criadas neste esquema.
- Clique Criar.
Essas configurações recomendadas criam um novo pipeline configurado para ser executado no modo acionado e no canal atual . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um cronograma. Para obter detalhes sobre o agendamento de pipelines, consulte a tarefa do pipeline DLT para trabalhos.
Você também pode converter pipelines existentes configurados com o Unity Catalog para usar sem servidor. Consulte Converter um pipeline existente para um sistema sem servidor.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipelines sem servidor:
- Você pode optar por usar o modo Contínuo de pipeline ao executar pipelines em produção. Consulte o modo de pipeline acionado versus contínuo.
- Adicione Notificações para atualizações por e-mail com base em condições de sucesso ou falha. Consulte Adicionar notificações por e-mail para eventos de pipeline.
- Utilize o campo de Configuração para definir pares chave-valor para o pipeline. Estas configurações servem duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipelines DLT.
- Configure as configurações do pipeline e do Spark. Consulte a referência de propriedades DLT .
- Use o canal Preview para testar a sua linha de execução em relação a alterações pendentes no tempo de execução do DLT e experimentar novas funcionalidades.
Política orçamental
Importante
Este recurso está em Public Preview.
As políticas de orçamento permitem que sua organização aplique tags personalizadas no uso sem servidor para atribuição de faturamento granular. Depois de marcar a caixa de seleção Serverless, a configuração de política de orçamento é exibida, onde pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento e só podem ser editadas por administradores do espaço de trabalho.
Observação
Assim que lhe for atribuída uma política de orçamento, os pipelines existentes não serão automaticamente associados à sua política. Você deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.
Para obter mais informações sobre políticas de orçamento, consulte Atribuir o uso sem servidor a políticas de orçamento.
Funcionalidades de uma pipeline sem servidor
Além de simplificar a configuração, os pipelines sem servidor têm os seguintes recursos:
- Atualização incremental para modos de exibição materializados: As atualizações para modos de exibição materializados são atualizadas incrementalmente sempre que possível. A atualização incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma atualização completa se os resultados não puderem ser calculados incrementalmente. Consulte Atualização incremental para ver vistas materializadas.
- Stream pipelining: Para melhorar a utilização, a taxa de transferência e a latência para cargas de trabalho de streaming de dados, como ingestão de dados, os microlotes são canalizados. Em outras palavras, em vez de executar microlotes sequencialmente como o Spark Structured Streaming padrão, os pipelines DLT sem servidor executam microlotes simultaneamente, melhorando a utilização de recursos de computação. O pipelining de fluxo é habilitado por padrão em pipelines DLT sem servidor.
- de dimensionamento automático vertical: os pipelines DLT sem servidor aumentam o dimensionamento automático horizontal fornecido pelo dimensionamento automático aprimorado do Databricks, alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline DLT sem falhar devido a erros de falta de memória. Consulte O que é o dimensionamento automático vertical?
O que é o dimensionamento automático vertical?
O dimensionamento automático vertical de pipelines DLT sem servidor aloca automaticamente os tipos de instância disponíveis mais econômicos para executar suas atualizações de pipeline DLT sem falhar devido a erros de falta de memória. O dimensionamento automático vertical aumenta quando tipos de instância maiores são necessários para executar uma atualização de pipeline e também diminui quando determina que a atualização pode ser executada com tipos de instância menores. O dimensionamento automático vertical determina se os nós de driver, nós de trabalho ou ambos os nós de driver e de trabalho devem ser dimensionados para cima ou para baixo.
O dimensionamento automático vertical é usado para todos os pipelines DLT sem servidor, incluindo pipelines usados por exibições materializadas do Databricks SQL e tabelas de streaming.
O dimensionamento automático vertical funciona detetando atualizações de pipeline que falharam devido a erros de falta de memória. O dimensionamento automático vertical aloca tipos de instância maiores quando essas falhas são detetadas com base nos dados de falta de memória coletados da atualização com falha. No modo de produção, uma nova atualização que usa os novos recursos de computação é iniciada automaticamente. No modo de desenvolvimento, os novos recursos de computação são usados quando você inicia manualmente uma nova atualização.
Se o dimensionamento automático vertical detetar que a memória das instâncias alocadas é consistentemente subutilizada, ele reduzirá os tipos de instância a serem usados na próxima atualização de pipeline.
Converter um pipeline existente para usar sem servidor
Você pode converter pipelines existentes configurados com o Unity Catalog em pipelines sem servidor. Conclua as seguintes etapas:
- Clique DLT na barra lateral.
- Clique no nome do pipeline desejado na lista.
- Clique em Configurações.
- Marque a caixa ao lado de sem servidor .
- Clique Salvar e inicie.
Importante
Quando você habilita o serverless, todas as configurações de computação definidas para um pipeline são removidas. Se alterares um pipeline de volta para atualizações não sem servidor, deverás reconfigurar as configurações de computação desejadas na configuração do mesmo.
Como posso encontrar o uso de DBU de um pipeline sem servidor?
Você pode encontrar o uso de DBU de pipelines de DLT sem servidor consultando a tabela de uso faturável, parte das tabelas do sistema do Azure Databricks. Consulte Qual é o consumo de DBU de um pipeline DLT sem servidor?.