Compartilhar via


Tutorial: executar um arquivo Python em um cluster e como um trabalho, usando a extensão do Databricks para Visual Studio Code

Este tutorial demonstra como configurar a extensão do Databricks para Visual Studio Code e como executar o Python em um cluster do Azure Databricks como um trabalho do Azure Databricks no workspace remoto. Confira O que é a extensão do Databricks para Visual Studio Code?.

Requisitos

Este tutorial exige que:

  • Você instalou a extensão do Databricks para o Visual Studio Code. Confira Instalar a extensão do Databricks para Visual Studio Code.
  • Você tem um cluster remoto do Azure Databricks para usar. Anote o nome do cluster. Para exibir os clusters disponíveis, na barra lateral do workspace do Azure Databricks, clique em Computação. Consulte Computação.

Etapa 1: Criar um novo projeto do Databricks

Nesta etapa, você cria um novo projeto do Databricks e configura a conexão com seu workspace remoto do Azure Databricks.

  1. Inicie o Visual Studio Code, clique em Arquivo > Abrir Pasta e abra uma pasta vazia em seu computador de desenvolvimento local.
  2. Na barra lateral, clique no ícone do logotipo do Databricks. Isso abrirá a extensão do Databricks.
  3. Na exibição Configuração, clique em Migrar para um Projeto do Databricks.
  4. A Paleta de Comandos para configurar o workspace do Databricks é aberta. Para Host do Databricks, insira ou selecione sua URL por workspace, por exemplo https://adb-1234567890123456.7.azuredatabricks.net.
  5. Selecione um perfil de autenticação para o projeto. Confira Configuração de autenticação da extensão do Databricks para Visual Studio Code.

Etapa 2: Adicionar informações do cluster à extensão do Databricks e iniciar o cluster

  1. Com a exibição Configuração já aberta, clique em Selecionar um cluster ou no ícone de engrenagem (Configurar cluster).

    Configurar cluster

  2. Na Paleta de Comandos, selecione o nome do cluster que você criou anteriormente.

  3. Clique no ícone de reprodução (Iniciar cluster) se ainda não tiver sido iniciado.

Etapa 3: Criar e executar o código Python

  1. Crie um arquivo de código Python local: na barra lateral, clique no ícone da pasta (Explorer).

  2. No menu principal, clique em Arquivo > Novo Arquivo. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o código a seguir ao arquivo e salve-o. Esse código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Carregar e Executar Arquivo. A saída aparece na exibição Console de Depuração.

    Carregar e executar arquivo do ícone

    Como alternativa, na exibição do Gerenciador, clique com o botão direito do mouse no arquivo demo.py e, em seguida, clique em Executar no Databricks>Carregar e Executar Arquivo.

    Carregar e executar arquivo do menu de contexto

Etapa 4: Executar o código como um trabalho

Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece em uma guia de editor separada próxima ao editor de arquivos demo.py.

Executar arquivo como fluxo de trabalho do ícone

Como alternativa, clique com o botão direito do mouse no arquivo demo.py no painel Gerenciador e selecione Executar no Databricks>Executar Arquivo como Fluxo de Trabalho.

Executar arquivo como fluxo de trabalho no menu de contexto

Próximas etapas

Agora que você usou com sucesso a extensão do Databricks para o Visual Studio Code para carregar um arquivo Python local e executá-lo remotamente, você também pode: