Compartir vía


Tutorial: Ejecución de un archivo de Python en un clúster y como trabajo mediante la extensión de Databricks para Visual Studio Code

Este tutorial le guía a través de la configuración de la extensión de Databricks para Visual Studio Code y, a continuación, la ejecución de un archivo de Python en un clúster de Azure Databricks y como un trabajo de Azur Databricks en su área de trabajo remota. Consulte ¿Qué es la extensión de Databricks para Visual Studio Code?.

Requisitos

Este tutorial requiere lo siguiente:

  • Instalación de la extensión de Databricks para Visual Studio Code. Consulte Instalación de la extensión de Databricks para Visual Studio Code.
  • Un clúster remoto de Azure Databricks que se va a usar. Anote el nombre del clúster. Para ver los clústeres disponibles, en la barra lateral del área de trabajo de Azure Databricks, haga clic en Proceso. Consulte Proceso.

Paso 1: Crear un nuevo proyecto de Databricks

En este paso, creará un nuevo proyecto de Databricks y configurará la conexión con el área de trabajo remota de Azure Databricks.

  1. Inicie Visual Studio Code y, a continuación, haga clic en Abrir > Abrir carpeta y abra una carpeta vacía en la máquina de desarrollo local.
  2. En la barra lateral, haga clic en el icono del logotipo de Databricks. Se abrirá la extensión de Databricks.
  3. En la vista Configuración, haga clic en Migrar a un proyecto de Databricks.
  4. Se abre la paleta de comandos para configurar el área de trabajo de Databricks. En Host de Databricks, escriba o seleccione la dirección URL por área de trabajo, por ejemplo, https://adb-1234567890123456.7.azuredatabricks.net.
  5. Seleccione un perfil de autenticación para el proyecto. Consulte Configuración de autenticación para la extensión de Databricks para Visual Studio Code.

Paso 2: Agregar información de clúster a la extensión de Databricks e iniciar el clúster

  1. Con la vista Configuración ya abierta, haga clic en Seleccionar un clúster o haga clic en el icono de engranaje (Configurar clúster).

    Configuración del inicio de sesión del clúster

  2. En la paleta de comandos, seleccione el nombre del clúster que creó anteriormente.

  3. Si aún no se ha iniciado, haga clic en el icono de reproducción (Iniciar clúster).

Paso 3: Crear y ejecutar código de Python

  1. Cree un archivo de código de Python local: en la barra lateral, haga clic en el icono de carpeta (Explorador).

  2. En el menú principal, haga clic en Archivo > Nuevo archivo. Nombre el archivo como demo.py y guárdelo en la raíz del proyecto.

  3. Agregue el siguiente código al archivo y guárdelo. Este código crea y muestra los contenidos de un DataFrame de PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Haga clic en el icono Ejecutar en Databricks junto a la lista de pestañas del editor y, a continuación, haga clic en Cargar y ejecutar archivo. La salida aparece en la vista Consola de depuración.

    Cargar y ejecutar un archivo desde el icono

    En la vista Explorer, también puede hacer clic con el botón derecho en el archivo demo.py y después en Ejecutar en Databricks>Cargar y ejecutar archivo.

    Cargar y ejecutar un archivo desde el menú contextual

Paso 4: Ejecutar el código como un trabajo

Para ejecutar demo.py como un trabajo, haga clic en el icono Ejecutar en Databricks junto a la lista de pestañas del editor y, a continuación, haga clic en Ejecutar archivo como flujo de trabajo. La salida aparece en una pestaña del editor independiente junto al editor de archivos demo.py.

Ejecutar archivo como flujo de trabajo desde el icono

También puede hacer clic con el botón derecho en el archivo demo.py en el panel Explorador y, a continuación, seleccionar Ejecutar en Databricks>Ejecutar archivo como flujo de trabajo.

Ejecutar archivo como flujo de trabajo desde el menú contextual

Pasos siguientes

Ahora que ha usado satisfactoriamente la extensión de Databricks para Visual Studio Code para cargar un archivo de Python local y ejecutarlo de forma remota, también puede hacer lo siguiente: