Configurar um pipeline Delta Live Tables sem servidor
Este artigo descreve configurações para pipelines Delta Live Tables sem servidor.
A Databricks recomenda o desenvolvimento de novos pipelines usando serverless. Algumas cargas de trabalho podem exigir a configuração da computação clássica ou o trabalho com o metastore herdado do Hive. Consulte Configurar computação para um pipeline Delta Live Tables e Usar pipelines Delta Live Tables com metastore herdado do Hive.
Nota
Os pipelines sem servidor sempre usam o Unity Catalog. O Unity Catalog for Delta Live Tables está em visualização pública e tem algumas limitações. Consulte Usar o catálogo Unity com seus pipelines Delta Live Tables.
Não é possível adicionar manualmente configurações de computação em um
clusters
objeto na configuração JSON para um pipeline sem servidor. Tentar fazer isso resulta em um erro.Para obter informações sobre elegibilidade e habilitação para pipelines DLT sem servidor, consulte Habilitar computação sem servidor.
Se você precisar usar uma conexão de Link Privado do Azure com seus pipelines DLT sem servidor, entre em contato com seu representante do Databricks.
Requisitos
Seu espaço de trabalho deve ter o Unity Catalog habilitado para usar pipelines sem servidor.
Seu espaço de trabalho deve estar em uma região habilitada para servidor.
Configuração recomendada para pipelines sem servidor
Importante
A permissão de criação de cluster não é necessária para configurar pipelines sem servidor. Por padrão, todos os usuários do espaço de trabalho podem usar pipelines sem servidor.
Os pipelines sem servidor removem a maioria das opções de configuração, pois o Azure Databricks gerencia toda a infraestrutura. Para configurar um pipeline sem servidor, faça o seguinte:
- Clique em Delta Live Tables na barra lateral.
- Clique em Criar pipeline.
- Forneça um nome de pipeline exclusivo.
- Marque a caixa ao lado de Serverless.
- (Opcional) Use o seletor de arquivos para configurar blocos de anotações e arquivos de espaço de trabalho como código-fonte.
- Se você não adicionar nenhum código-fonte, um novo bloco de anotações será criado para o pipeline. O bloco de anotações é criado em um novo diretório no diretório do usuário e um link para acessar esse bloco de anotações é mostrado no campo Código-fonte no painel Detalhes do pipeline depois que você cria o pipeline.
- Um link para acessar este bloco de anotações está presente no campo Código-fonte no painel Detalhes do pipeline depois de criar o pipeline.
- Use o botão Adicionar código-fonte para adicionar outros ativos de código-fonte.
- Se você não adicionar nenhum código-fonte, um novo bloco de anotações será criado para o pipeline. O bloco de anotações é criado em um novo diretório no diretório do usuário e um link para acessar esse bloco de anotações é mostrado no campo Código-fonte no painel Detalhes do pipeline depois que você cria o pipeline.
- Selecione um Catálogo para publicar dados.
- Selecione um esquema no catálogo. Todas as tabelas de streaming e exibições materializadas definidas no pipeline são criadas neste esquema.
- Clique em Criar.
Essas configurações recomendadas criam um novo pipeline configurado para ser executado no modo acionado e no canal atual. Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um cronograma. Para obter detalhes sobre pipelines de agendamento, consulte Tarefa de pipeline Delta Live Tables para trabalhos.
Você também pode converter pipelines existentes configurados com o Unity Catalog para usar sem servidor. Consulte Converter um pipeline existente para usar sem servidor.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipelines sem servidor:
- Você pode optar por usar o modo de pipeline contínuo ao executar pipelines em produção. Consulte Modo de pipeline acionado versus contínuo.
- Adicione notificações para atualizações por e-mail com base em condições de sucesso ou falha. Consulte Adicionar notificações por e-mail para eventos de pipeline.
- Use o campo Configuração para definir pares chave-valor para o pipeline. Estas configurações servem duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipelines Delta Live Tables.
- Configure as configurações do pipeline e do Spark. Consulte Referência de propriedades do Delta Live Tables.
- Use o canal de visualização para testar seu pipeline em relação às alterações pendentes de tempo de execução do Delta Live Tables e testar novos recursos.
Política orçamental
Importante
Esta funcionalidade está em Pré-visualização Pública.
As políticas de orçamento permitem que sua organização aplique tags personalizadas no uso sem servidor para atribuição de faturamento granular. Depois de selecionar a caixa de seleção Sem servidor , a configuração de política de orçamento aparece onde você pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento e só podem ser editadas por administradores do espaço de trabalho.
Nota
Depois de receber uma política de orçamento, os pipelines existentes não serão automaticamente marcados com a política. Você deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.
Para obter mais informações sobre políticas de orçamento, consulte Atribuir uso sem servidor com políticas de orçamento.
Recursos de pipeline sem servidor
Além de simplificar a configuração, os pipelines sem servidor têm os seguintes recursos:
Atualização incremental para modos de exibição materializados: as atualizações para modos de exibição materializados são atualizadas incrementalmente sempre que possível. A atualização incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma atualização completa se os resultados não puderem ser calculados incrementalmente. Consulte Atualização incremental para visualizações materializadas.
Pipelining de fluxo: para melhorar a utilização, a taxa de transferência e a latência para cargas de trabalho de streaming de dados, como ingestão de dados, os microlotes são canalizados. Em outras palavras, em vez de executar microlotes sequencialmente como o Spark Structured Streaming padrão, os pipelines DLT sem servidor executam microlotes simultaneamente, melhorando a utilização de recursos de computação. O pipelining de fluxo é habilitado por padrão em pipelines DLT sem servidor.
Dimensionamento automático vertical: os pipelines DLT sem servidor aumentam o dimensionamento automático horizontal fornecido pelo dimensionamento automático aprimorado do Databricks, alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline Delta Live Tables sem falhar devido a erros de falta de memória. Consulte O que é o dimensionamento automático vertical?
O que é o dimensionamento automático vertical?
O dimensionamento automático vertical de pipelines DLT sem servidor aloca automaticamente os tipos de instância disponíveis mais econômicos para executar as atualizações de pipeline do Delta Live Tables sem falhar devido a erros de falta de memória. O dimensionamento automático vertical aumenta quando tipos de instância maiores são necessários para executar uma atualização de pipeline e também diminui quando determina que a atualização pode ser executada com tipos de instância menores. O dimensionamento automático vertical determina se os nós de driver, nós de trabalho ou ambos os nós de driver e de trabalho devem ser dimensionados para cima ou para baixo.
O dimensionamento automático vertical é usado para todos os pipelines DLT sem servidor, incluindo pipelines usados por exibições materializadas do Databricks SQL e tabelas de streaming.
O dimensionamento automático vertical funciona detetando atualizações de pipeline que falharam devido a erros de falta de memória. O dimensionamento automático vertical aloca tipos de instância maiores quando essas falhas são detetadas com base nos dados de falta de memória coletados da atualização com falha. No modo de produção, uma nova atualização que usa os novos recursos de computação é iniciada automaticamente. No modo de desenvolvimento, os novos recursos de computação são usados quando você inicia manualmente uma nova atualização.
Se o dimensionamento automático vertical detetar que a memória das instâncias alocadas é consistentemente subutilizada, ele reduzirá os tipos de instância a serem usados na próxima atualização de pipeline.
Converter um pipeline existente para usar serverless
Você pode converter pipelines existentes configurados com o Unity Catalog em pipelines sem servidor. Conclua os seguintes passos:
- Clique em Delta Live Tables na barra lateral.
- Clique no nome do pipeline desejado na lista.
- Clique em Definições.
- Marque a caixa ao lado de Serverless.
- Clique em Salvar e iniciar.
Importante
Quando você habilita o serverless, todas as configurações de computação definidas para um pipeline são removidas. Se você alternar um pipeline de volta para atualizações sem servidor, deverá reconfigurar as configurações de computação desejadas para a configuração do pipeline.
Como posso encontrar o uso de DBU de um pipeline sem servidor?
Você pode encontrar o uso de DBU de pipelines DLT sem servidor consultando a tabela de uso faturável, parte das tabelas do sistema Azure Databricks. Consulte Qual é o consumo de DBU de um pipeline DLT sem servidor?.