Tarefa de notebook para trabalhos
Use a tarefa de notebook para implantar notebooks do Databricks.
Configurar uma tarefa de notebook
Antes de começar, você deve ter seu notebook em um local acessível pelo usuário que está configurando o trabalho.
Observação
A interface do usuário de trabalhos exibe opções dinamicamente com base em outras configurações definidas.
Para iniciar o fluxo para configurar uma tarefa Notebook
:
- Navegue até a guia Tarefas na interface do usuário de trabalhos.
- No menu suspenso Tipo, selecione
Notebook
.
Configure a origem
No menu suspenso Origem, selecione um local para o script Python usando uma das opções a seguir.
Workspace
Use o Workspace para configurar um notebook armazenado no workspace concluindo as etapas a seguir.
- Clique no campo Caminho. A caixa de diálogo Selecionar Notebook será exibida.
- Navegue até o notebook, clique para realçar o arquivo e clique em Confirmar.
Observação
Você pode usar essa opção para configurar uma tarefa para um notebook armazenado em uma pasta Git do Databricks. O Databricks recomenda usar a opção de provedor Git e um repositório Git remoto para controlar a versão de ativos agendados com trabalhos.
Provedor Git
Use Provedor Git para configurar um notebook armazenado em um repositório Git remoto.
As opções exibidas pela interface do usuário dependem se você já configurou ou não um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Confira Usar o Git com trabalhos.
Importante
Os notebooks criados por trabalhos do Azure Databricks executados a partir de repositórios Git remotos são efêmeros e não podem ser confiados para acompanhar execuções, experimentos ou modelos do MLflow. Ao criar um notebook a partir de um trabalho, use um experimento de workspace do MLflow (em vez de um experimento de notebook do MLflow) e chame mlflow.set_experiment("/path/to/experiment")
no notebook do workspace antes de executar um código de rastreamento do MLflow. Para obter mais detalhes, confira Evitar perda de dados em experimentos do MLflow.
O campo Caminho aparece depois que você configura uma referência git.
Insira o caminho relativo para o seu notebook, como etl/bronze/ingest.py
.
Importante
Quando inserir o caminho relativo, não o comece com /
ou ./
. Por exemplo, se o caminho absoluto para o notebook que você deseja acessar for /etl/bronze/ingest.py
, insira etl/bronze/ingest.py
no campo Caminho.
Configurar computação e bibliotecas dependentes
- Use Computação para selecionar ou configurar um cluster que dê suporte à lógica em seu notebook.
- Se você usar computação
Serverless
, use o campo Ambiente e Bibliotecas para selecionar, editar ou adicionar um novo ambiente. Consulte Instalar dependências de notebooks. - Para todas as outras configurações de computação, clique em + Adicionar em Bibliotecas dependentes. A caixa de diálogo Adicionar biblioteca dependente é exibida.
- Você pode selecionar uma biblioteca existente ou carregar uma nova biblioteca.
- Você só pode usar bibliotecas armazenadas em um local compatível com suas configurações de computação. Consulte Suporte da biblioteca Python.
- Cada Fonte da Biblioteca tem um fluxo diferente para selecionar ou carregar uma biblioteca. Consulte Bibliotecas.
Finalizar a configuração do trabalho
- (Opcional) Configure Parâmetros como pares chave-valor que podem ser acessados no notebook usando
dbutils.widgets
. Consulte Configurar parâmetros de tarefa. - Clique em Salvar tarefa.
Limitações
A saída total de células do notebook (a saída combinada de todas as células do notebook) está sujeita a um limite de tamanho de 20 MB. Além disso, a saída individual da célula está sujeita a um limite de tamanho de 8 MB. Se a saída de células total exceder 20 MB de tamanho, ou se a saída de uma célula individual for maior que 8 MB, a execução será cancelada e marcada com falha.
Se você precisar de ajuda para encontrar células próximas ao limite ou que o tenham ultrapassado, execute o notebook em um cluster de uso geral e use esta técnica de salvamento automático do notebook.