Tarefa de script Python para trabalhos
Use a tarefa Script Python para executar um arquivo Python.
Configurar uma tarefa de script Python
Antes de começar, você deve carregar o seu script Python em um local acessível pelo usuário que está configurando o trabalho. O Databricks recomenda o uso de arquivos de workspace para scripts Python. Consulte O que são Arquivos de workspace?.
Observação
A interface do usuário de trabalhos exibe opções dinamicamente com base em outras configurações definidas.
O Databricks não recomenda o armazenamento de código ou dados usando raiz ou montagens do DBFS. Em vez disso, você pode migrar scripts Python para arquivos ou volumes de workspace ou usar URIs para acessar o armazenamento de objetos na nuvem.
Para iniciar o fluxo para configurar uma tarefa Python script
:
- Navegue até a guia Tarefas na interface do usuário de trabalhos.
- No menu suspenso Tipo, selecione
Python script
.
Configure a origem
No menu suspenso Origem, selecione um local para o script Python usando uma das opções a seguir.
Workspace
Use Workspace para configurar um script Python armazenado usando arquivos do workspace.
- Clique no campo Caminho. A caixa de diálogo Selecionar Arquivo Python é exibida.
- Navegue até o script Python, clique para realçar o arquivo e clique em Confirmar.
Observação
Você pode usar essa opção para configurar uma tarefa em um script Python armazenado em uma pasta Git do Databricks. O Databricks recomenda usar a opção de provedor Git e um repositório Git remoto para controlar a versão de ativos agendados com trabalhos.
DBFS/ADLS
Use o DBFS/ADLS para configurar um script Python armazenado em um volume, local de armazenamento de objetos na nuvem ou raiz do DBFS.
O Databricks recomenda armazenar scripts Python em volumes do Catálogo do Unity ou armazenamento de objetos na nuvem.
No campo Caminho, insira o URI para o script Python. Por exemplo, /Volumes/path/to/script.py
ou abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py
.
Provedor Git
Use Provedor Git para configurar um script Python armazenado em um repositório Git remoto.
As opções exibidas pela interface do usuário dependem se você já configurou ou não um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Confira Usar o Git com trabalhos.
O campo Caminho aparece depois que você configura uma referência git.
Insira o caminho relativo para o script Python, como etl/bronze/ingest.py
.
Importante
Quando inserir o caminho relativo, não o comece com /
ou ./
. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for /etl/bronze/ingest.py
, insira etl/bronze/ingest.py
no campo Caminho.
Configurar computação e bibliotecas dependentes
- Use Computação para selecionar ou configurar um cluster que dê suporte à lógica em seu script.
- Se você usar computação
Serverless
, use o campo Ambiente e Bibliotecas para selecionar, editar ou adicionar um novo ambiente. Consulte Instalar dependências de notebooks. - Para todas as outras configurações de computação, clique em + Adicionar em Bibliotecas dependentes. A caixa de diálogo Adicionar biblioteca dependente é exibida.
- Você pode selecionar uma biblioteca existente ou carregar uma nova biblioteca.
- Você só pode usar bibliotecas armazenadas em um local compatível com suas configurações de computação. Consulte Suporte da biblioteca Python.
- Cada Fonte da Biblioteca tem um fluxo diferente para selecionar ou carregar uma biblioteca. Consulte Bibliotecas.
Finalizar a configuração do trabalho
- (Opcional) Configure Parâmetros como uma lista de cadeias de caracteres transmitidas como argumentos de CLI para o script Python. Consulte Configurar parâmetros de tarefa.
- Clique em Salvar tarefa.