Compartilhar via


Executar um arquivo em um cluster ou um arquivo ou notebook como um trabalho no Azure Databricks usando a extensão do Databricks para Visual Studio Code

A extensão do Databricks para Visual Studio Code permite que você execute o código Python em um cluster ou o código em Python, R, Scala ou SQL, ou o notebook, como um trabalho no Azure Databricks.

Essas informações pressupõem que você já tenha instalado e configurado a extensão do Databricks para Visual Studio Code. Confira Instalar a extensão do Databricks para Visual Studio Code.

Executar um arquivo Python em um cluster

Para executar um arquivo Python em um cluster do Azure Databricks usando a extensão do Databricks para Visual Studio Code, com a extensão e o projeto abertos, faça o seguinte:

  1. Abra o arquivo Python que você deseja executar no cluster.
  2. Realize um dos seguintes procedimentos:
    • Na barra de título do editor de arquivos, clique no ícone Executar no Databricks e, em seguida, clique em Fazer Upload e Executar Arquivo.

      Fazer upload e executar arquivo do ícone

    • No modo de exibição do Explorer (Exibir > Explorer), clique com o botão direito do mouse no arquivo e selecione Executar no Databricks>Fazer Upload e Executar Arquivo no menu de contexto.

      Fazer upload e executar arquivo do menu de contexto

O arquivo é executado no cluster e qualquer saída está disponível no Console de Depuração (Exibir > Console de Depuração).

Executar um arquivo Python como um trabalho

Para executar um arquivo Python como um trabalho do Azure Databricks usando a extensão do Databricks para Visual Studio Code, com a extensão e o projeto abertos, faça o seguinte:

  1. Abra o arquivo Python que você deseja executar como um trabalho.
  2. Realize um dos seguintes procedimentos:
    • Na barra de título do editor de arquivos, clique no ícone Executar no Databricks e, em seguida, clique em Executar arquivo como fluxo de trabalho.

      Executar arquivo como fluxo de trabalho do ícone

    • No modo de exibição do Gerenciador (Exibir Gerenciador do >), clique com o botão direito do mouse no arquivo e selecione Executar no Databricks>Executar arquivo como fluxo de trabalho no menu de contexto.

      Executar arquivo como fluxo de trabalho no menu de contexto

Uma nova guia do editor é exibida, intitulada Execução de Trabalho do Databricks. O arquivo é executado como um trabalho no workspace e as saídas são impressas na área Saída da nova guia do editor.

Para ver informações sobre a execução do trabalho, clique no link ID da execução da tarefa na nova guia editor Execução de Trabalho do Databricks. Seu workspace será aberto e os detalhes da execução do trabalho serão exibidos no workspace.

Executar um notebook Python, R, Scala ou SQL como um trabalho

Para executar um notebook como um trabalho do Azure Databricks usando a extensão do Databricks para Visual Studio Code, com a extensão e o projeto abertos, faça o seguinte:

  1. Abra o notebook que você deseja executar como um trabalho.

    Dica

    Para transformar um arquivo Python, R, Scala ou SQL em um notebook do Azure Databricks, adicione o comentário # Databricks notebook source ao início do arquivo e o comentário # COMMAND ---------- antes de cada célula. Para obter mais informações, confira Importar um arquivo e convertê-lo em um notebook.

    Um arquivo de código do Python formatado como um notebook do Databricks 1

  2. Realize um dos seguintes procedimentos:

    • Na barra de título do editor de arquivos do notebook, clique no ícone Executar no Databricks e, em seguida, clique em Executar arquivo como fluxo de trabalho.

    Observação

    Se Executar no Databricks como Workflow não estiver disponível, consulte Criar uma configuração de execução personalizada.

    • No modo de exibição do Explorer (Exibir > Explorer), clique com o botão direito do mouse no arquivo notebook e selecione Executar no Databricks>Executar arquivo como fluxo de trabalho no menu de contexto.

Uma nova guia do editor é exibida, intitulada Execução de Trabalho do Databricks. O notebook é executado como um trabalho no workspace. O notebook e sua saída são exibidos na área Saída da nova guia do editor.

Para ver informações sobre a execução do trabalho, clique no link ID da execução da tarefa na guia editor Execução de Trabalho do Databricks. Seu workspace será aberto e os detalhes da execução do trabalho serão exibidos no workspace.

Criar uma configuração de execução personalizada

Configurações de execução personalizadas na extensão do Databricks para Visual Studio Code permitem passar argumentos personalizados para um trabalho ou um notebook, ou criar configurações de execução diferentes para arquivos diferentes.

Para criar uma configuração de execução personalizada, clique em Executar > Adicionar Configuração no menu principal do Visual Studio Code. Em seguida, selecione Databricks para uma configuração de execução baseada em cluster ou Databricks: Fluxo de Trabalho para uma configuração de execução baseada em trabalho.

Por exemplo, a seguinte configuração de execução personalizada modifica o comando de inicialização Executar arquivo como fluxo de trabalho para passar o argumento --prod ao trabalho:

{
  "version": "0.2.0",
  "configurations": [
    {
      "type": "databricks-workflow",
      "request": "launch",
      "name": "Run on Databricks as Workflow",
      "program": "${file}",
      "parameters": {},
      "args": ["--prod"]
    }
  ]
}

Dica

Adicione "databricks": true à configuração "type": "python" se quiser usar a configuração do Python, mas usufruir da autenticação do Databricks Connect que faz parte da definição da extensão.

Usando as configurações de execução personalizadas, você também pode passar argumentos da linha de comando e executar o código pressionando F5. Para obter mais informações, veja Iniciar configurações na documentação do Visual Studio Code.