Tarefa do bloco de notas para trabalhos
Use a tarefa do bloco de anotações para implantar blocos de anotações Databricks.
Configurar uma tarefa do bloco de notas
Antes de começar, você deve ter seu bloco de anotações em um local acessível pelo usuário que está configurando o trabalho.
Nota
A interface do usuário de trabalhos exibe opções dinamicamente com base em outras configurações configuradas.
Para iniciar o fluxo para configurar uma Notebook
tarefa:
- Navegue até a guia Tarefas na interface do usuário Trabalhos.
- No menu suspenso Tipo, selecione
Notebook
.
Configurar a origem
No menu drop-down Source, selecione um local para o script Python, usando uma das seguintes opções.
Área de trabalho
Use o espaço de trabalho para configurar um bloco de anotações armazenado no espaço de trabalho concluindo as seguintes etapas:
- Clique no campo Caminho . A caixa de diálogo Selecionar Bloco de Anotações é exibida.
- Navegue até o bloco de anotações, clique para realçar o arquivo e clique em Confirmar.
Nota
Você pode usar essa opção para configurar uma tarefa para um bloco de anotações armazenado em uma pasta Git do Databricks. O Databricks recomenda o uso da opção de provedor Git e um repositório Git remoto para versionamento de ativos agendados com trabalhos.
Provedor Git
Use o provedor Git para configurar um bloco de anotações em um repositório Git remoto.
As opções exibidas pela interface do usuário dependem se você já configurou ou não um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Consulte Usar o Git com trabalhos.
Importante
Os blocos de anotações criados por trabalhos do Azure Databricks executados a partir de repositórios Git remotos são efêmeros e não podem ser confiáveis para rastrear execuções, experimentos ou modelos do MLflow. Ao criar um bloco de anotações a partir de um trabalho, use um experimento MLflow do espaço de trabalho (em vez de um experimento MLflow do bloco de anotações) e chame mlflow.set_experiment("/path/to/experiment")
o bloco de anotações do espaço de trabalho antes de executar qualquer código de controle do MLflow. Para obter mais detalhes, consulte Evitar perda de dados em experimentos MLflow.
O campo Caminho aparece depois de configurar uma referência git.
Insira o caminho relativo para seu bloco de anotações, como etl/bronze/ingest.py
.
Importante
Ao inserir o caminho relativo, não comece com /
ou ./
. Por exemplo, se o caminho absoluto para o bloco de anotações que você deseja acessar for /etl/bronze/ingest.py
, insira etl/bronze/ingest.py
no campo Caminho .
Configurar bibliotecas dependentes e de computação
- Use o Computação para selecionar ou configurar um cluster que suporte a lógica no seu notebook.
- Se utilizar a computação
Serverless
, use o campo Ambiente e Bibliotecas para selecionar, editar ou adicionar um novo ambiente. Consulte Instalar dependências do bloco de anotações. - Para todas as outras configurações de computação, clique em + Adicionar em Bibliotecas dependentes. A caixa de diálogo Adicionar biblioteca dependente é exibida.
- Você pode selecionar uma biblioteca existente ou carregar uma nova biblioteca.
- Você só pode usar bibliotecas armazenadas em um local suportado por suas configurações de computação. Consulte Suporte à biblioteca Python.
- Cada fonte de biblioteca tem um fluxo diferente para selecionar ou carregar uma biblioteca. Consulte Bibliotecas.
Finalizar a configuração do trabalho
- (Opcional) Configure os Parâmetros como pares chave-valor que podem ser acedidos no notebook através de
dbutils.widgets
. Consulte Configurar parâmetros de tarefa. - Clique em Salvar tarefa.
Limitações
A saída total das células do bloco de notas (a saída combinada de todas as células do bloco de notas) está sujeita a um limite de tamanho de 20 MB. Além disso, a saída de célula individual está sujeita a um limite de tamanho de 8MB. Se a saída total da célula exceder 20 MB de tamanho, ou se a saída de uma célula individual for maior que 8 MB, a execução será cancelada e marcada como falha.
Se precisar de ajuda para localizar células próximas ou além do limite, execute o notebook em um cluster geral e use esta técnica de salvamento automático de notebook.