Compartir vía


Uso de Visual Studio Code con Databricks Connect para Python

Nota:

Este artículo describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.

En este artículo se explica cómo usar Databricks Connect para Python con Visual Studio Code. Databricks Connect le permite conectar los clústeres de Azure Databricks a entornos de desarrollo integrado populares, servidores de cuadernos y otras aplicaciones personalizadas. Consulte ¿Qué es Databricks Connect?. Para obtener la versión de Scala de este artículo, consulte Uso de Visual Studio Code con Databricks Connect para Scala.

Nota:

Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.

Sugerencia

La extensión Databricks para Visual Studio Code ya cuenta con soporte técnico integrado de Databricks Connect para la versión Databricks Runtime 13.3 LTS y posteriores. Vea Depuración de código mediante Databricks Connect para la extensión de Databricks para Visual Studio Code.

Si quiere usar Databricks Connect con Visual Studio Code y Python, siga estas instrucciones.

  1. Inicie Visual Studio Code.

  2. Abra la carpeta que contiene el entorno virtual de Python (Archivo > Abrir carpeta).

  3. En el terminal de Visual Studio Code (Ver > Terminal), active el entorno virtual.

  4. Establezca el intérprete de Python actual para que sea el que se encuentra en el entorno virtual:

    1. En la paleta de comandos (Ver > Paleta de comandos), escriba Python: Select Interpreter y, a continuación, presione Entrar.
    2. Seleccione la ruta de acceso al intérprete de Python al que se hace referencia en el entorno virtual.
  5. Agregue a la carpeta un archivo de código de Python (.py) que contenga el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializar DatabricksSession, como se muestra en el código de ejemplo.

  6. Para ejecutar el código, haga clic en Ejecución > Ejecutar sin depurar en el menú principal. Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.

  7. Para depurar el código:

    1. Con el archivo de código de Python abierto, establezca los puntos de interrupción en los que quiera que se detenga el código cuando se ejecuta.
    2. Haga clic en el icono Ejecutar y depurar de la barra lateral o haga clic en Ver > Ejecutar en el menú principal.
    3. En la vista Ejecutar y depurar, haga clic en el botón Ejecutar y depurar.
    4. Siga las instrucciones que aparecen en pantalla para empezar a ejecutar y depurar el código.

    Todo el código de Python se depura localmente, mientras que todo el código de PySpark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.

Para obtener instrucciones de ejecución y depuración más específicas, consulte Configuración y ejecución del depurador y Depuración de Python en VS Code.