Compartilhar via


Configurar e editar trabalhos do Databricks

Você pode criar e executar um trabalho usando a interface do usuário de trabalhos ou ferramentas de desenvolvedor, como a CLI do Databricks ou a API REST. Usando a interface do usuário ou a API, você pode reparar e executar novamente um trabalho com falha ou cancelado. Este artigo mostra como criar, configurar e editar tarefas usando a interface do usuário do workspace Fluxos de Trabalho. Para obter informações sobre outras ferramentas, consulte o seguinte:

  • Para saber mais sobre como usar a CLI do Databricks para criar e executar trabalhos, consulte O que é a CLI do Databricks?.
  • Para saber mais sobre como usar a API de Trabalhos para criar e executar trabalhos, consulte Trabalhos na referência da API REST.
  • Se você preferir uma abordagem de IaC (infraestrutura como código) para configurar trabalhos, poderá usar DABs (Pacotes de Ativos do Databricks). Para saber mais sobre como usar DABs para configurar e orquestrar seus trabalhos, confira Pacotes de Ativos do Databricks.
  • Para saber como executar e agendar trabalhos diretamente em um bloco de anotações Databricks, consulte Criar e gerenciar trabalhos de bloco de anotações agendados.

Dica

Para exibir um trabalho como YAML, clique no menu kebab à esquerda de Executar agora para o trabalho e, em seguida, clique em Alternar para a versão do código (YAML).

Qual é a configuração mínima necessária para um trabalho?

Todos os trabalhos no Azure Databricks exigem o seguinte:

  • Uma tarefa que contém lógica a ser executada, como um notebook do Databricks. Confira Configurar e editar tarefas do Databricks
  • Um recurso de computação para executar a lógica. O recurso de computação pode ser computação sem servidor, computação de trabalhos clássica ou computação para todas as finalidades. Confira Configurar computação para trabalhos.
  • Um agendamento especificado para quando o trabalho deverá ser executado. Opcionalmente, você pode omitir a configuração de um agendamento e acionar o trabalho manualmente.
  • Um nome exclusivo.

Criar um novo trabalho

Esta seção descreve as etapas para criar um novo trabalho com uma tarefa de notebook e agendá-la usando a interface do usuário do espaço de trabalho.

Os trabalhos contêm uma ou mais tarefas. Você cria um novo trabalho configurando a primeira tarefa desse trabalho.

Observação

Cada tipo de tarefa tem opções dinâmicas de configuração na interface do usuário do workspace. Confira Configurar e editar tarefas do Databricks.

  1. Clique em Ícone de fluxos de trabalhoFluxos de Trabalho na barra lateral e clique em botão Criar Trabalho.
  2. Insira um Nome de tarefa.
  3. Selecione um notebook para o campo Caminho.
  4. Clique em Criar tarefa.

Se o workspace não estiver habilitado para computação sem servidor para trabalhos, você deverá selecionar uma opção Computação. O Databricks sempre recomenda usar a computação de trabalhos ao configurar tarefas.

Um novo trabalho aparecerá na lista de trabalhos do workspace com o nome padrão New Job <date> <time>.

Você pode continuar a adicionar mais tarefas no mesmo trabalho, se necessário para o fluxo de trabalho.

Agendando um trabalho

Você pode decidir quando seu trabalho é executado. Por padrão, ele só será executado quando você iniciá-lo manualmente, mas você também pode configurá-lo para ser executado automaticamente. Você pode criar um gatilho para executar uma tarefa em um agendamento ou com base em um evento.

Controlando o fluxo de tarefas dentro do trabalho

Ao configurar várias tarefas em trabalhos, você pode usar tarefas especializadas para controlar como as tarefas são executadas. Veja Controlar o fluxo de tarefas em um trabalho do Databricks.

Selecionar um trabalho para editar no workspace

Para editar um trabalho existente com a interface do usuário do workspace, faça o seguinte:

  1. Clique em Ícone de fluxos de trabalhoFluxos de trabalho na barra lateral.
  2. Na coluna Nome, clique no nome do trabalho.

Use a interface do usuário de trabalho para fazer o seguinte:

  • Editar configurações de trabalho
  • Renomear, clonar ou excluir um trabalho
  • Adicionar novas tarefas a um trabalho existente
  • Editar as configurações de tarefa

Observação

Você também pode visualizar as definições JSON para uso com os pontos de extremidade get, create e reset da API REST.

Editar configurações de trabalho

O painel lateral contém os Detalhes do trabalho. Você pode alterar o gatilho de trabalho, configuração de computação, notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar tags. Você também pode editar permissões de trabalho quando o controle de acesso ao trabalho está habilitado.

Adicionar parâmetros para todas as tarefas de trabalho

Os parâmetros configurados no nível de trabalho são transmitidos para as tarefas do trabalho que aceitam parâmetros de chave-valor, incluindo arquivos wheel Python configurados para aceitar argumentos de palavras-chave. Confira Parametrizar trabalhos.

Adicionar marcas a um trabalho

Para adicionar rótulos ou atributos de chave-valor ao seu trabalho, você pode adicionar tags ao editar o trabalho. Você pode usar tags para filtrar trabalhos na lista Trabalhos. Por exemplo, você pode usar uma tag department para filtrar todos os trabalhos que pertencem a um departamento específico.

Observação

Como as marcas de trabalho não foram projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda usar marcas somente para valores não confidenciais.

As marcas também se propagam para clusters de trabalho criados quando um trabalho é executado, permitindo que você use marcas com o monitoramento de cluster existente.

Para adicionar ou editar tags, clique em + Tag no painel lateral Detalhes do trabalho. É possível adicionar a tag como um rótulo ou um par chave-valor. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.

Adicionar uma política de orçamento a um trabalho

Importante

Esse recurso está em uma versão prévia.

Se o workspace usar políticas de orçamento para atribuir o uso sem servidor, você poderá selecionar a política de orçamento dos seus trabalhos na configuração Política de orçamento no painel lateral Detalhes do trabalho. Confira Uso sem servidor do atributo com políticas de orçamento.

Renomear, clonar ou excluir um trabalho

Para renomear um trabalho, acesse a interface do usuário dos trabalhos e clique no nome do trabalho.

Você pode criar rapidamente um novo trabalho clonando um trabalho existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto pela ID do trabalho. Para clonar um trabalho, faça o seguinte:

  1. Acesse a interface do usuário de trabalhos para o trabalho.
  2. Clique em Menu kebab ao lado do botão Executar agora.
  3. No menu suspenso, selecione Clonar trabalho.
  4. Insira um nome para o trabalho clonado.
  5. Clique em Clonar.

Excluir um Trabalho

Para excluir um trabalho, acesse a página do trabalho, clique em Menu kebab ao lado do nome do trabalho e selecione Excluir trabalho no menu suspenso.

Usar o Git com trabalhos

Se o trabalho contiver tarefas com suporte ao uso de um provedor Git remoto, a interface do usuário dos trabalhos conterá um campo Git e a opção de adicionar ou editar configurações do Git.

Você pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:

  • Notebooks
  • Scripts do Python
  • Arquivos SQL
  • dbt

Todas as tarefas em um trabalho devem fazer referência ao mesmo commit no repositório remoto. Você deve especificar apenas uma das seguintes opções para um trabalho que use um repositório remoto:

  • branch: o nome do branch, por exemplo, main.
  • tag: o nome da tag, por exemplo, release-1.0.0.
  • commit: o hash de um commit específico, por exemplo, e0056d01.

Quando a execução de um trabalho começa, o Databricks faz uma confirmação de instantâneo do repositório remoto para garantir que todo o trabalho seja executado na mesma versão do código.

Quando você visualiza o histórico de execução de uma tarefa que executa o código armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o SHA de confirmação associado à execução. Confira Exibir o histórico de execuções da tarefa.

Observação

As tarefas configuradas para usar um repositório Git remoto não podem gravar em arquivos de workspace. Essas tarefas devem gravar dados temporários no armazenamento efêmero anexado ao sistema de computação configurado para executar a tarefa e dados persistentes em um volume ou tabela.

O Databricks recomenda referenciar caminhos de workspace em pastas Git apenas para iteração e teste rápidos durante o desenvolvimento. À medida que você move trabalhos para preparo e produção, o Databricks recomenda configurar esses trabalhos para fazer referência a um repositório Git remoto. Para saber mais sobre como usar um repositório Git remoto com um trabalho do Databricks, consulte a seção a seguir.

Configurar um provedor Git

A interface do usuário de trabalhos tem uma caixa de diálogo para configurar um repositório Git remoto. Essa caixa de diálogo pode ser acessada no painel Detalhes do trabalho sob o título Git ou em qualquer tarefa configurada para usar um provedor Git.

As opções exibidas para acessar a caixa de diálogo variam de acordo com o tipo de tarefa e se já existe ou não uma referência git configurada para o trabalho. Os botões para iniciar a caixa de diálogo incluem Adicionar configurações do Git, Editar ou Adicionar uma referência do Git.

Na caixa de diálogo Informações do Git (rotulada apenas como Git se for acessada pelo painel Detalhes do trabalho), insira os seguintes detalhes:

  • URL do repositório Git.
  • Selecione seu provedor Git na lista suspensa.
  • No campo Referência do Git, insira o identificador de um branch, tag ou commit que corresponda à versão do código-fonte que você deseja executar.
  • Selecione o branch, tag ou commit na lista suspensa.

Observação

A caixa de diálogo pode solicitar o seguinte: As credenciais do Git para esta conta estão ausentes. Adicione as credenciais. Você deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte Configurar pastas Git do Databricks (Repos).

Configurar limites para a duração da execução de tarefas ou métricas de backlog de streaming

Importante

A observabilidade de streaming para os trabalhos do Databricks está em Visualização Pública.

Você pode configurar limites opcionais para o tempo de execução do trabalho ou métricas de acúmulo de streaming. Para configurar os limites de duração ou de métrica de streaming, clique em Duração e limites de backlog de streaming no painel Detalhes do trabalho.

Para configurar os limites de duração do trabalho, incluindo os tempos de conclusão esperados e máximos para o trabalho, selecione Duração da execução no menu suspenso Métrica. Insira uma duração no campo Aviso para configurar o tempo de conclusão esperado do trabalho. Um evento será disparado se o trabalho exceder esse limite. Você pode usar esse evento para notificar quando um trabalho estiver sendo executado lentamente. Consulte Configurar notificações para trabalhos lentos. Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Tempo limite. Se o trabalho não for concluído nesse tempo, o Azure Databricks definirá seu status como “Tempo Limite Atingido”.

Para configurar um limite para uma métrica de lista de pendências de streaming, selecione a métrica no menu suspenso Métrica e insira um valor para o limite. Para saber mais sobre as métricas específicas compatíveis com uma fonte de streaming, confira Exibir métricas para tarefas de streaming.

Se um evento for disparado porque um limite é excedido, você poderá usar o evento para enviar uma notificação. Confira Configurar notificações para trabalhos lentos.

Opcionalmente, você pode especificar limites de duração para tarefas. Confira Configurar limites para duração da execução de tarefas ou métricas de backlog de streaming.