Compartir vía


Uso de JupyterLab con Databricks Connect para Python

Nota:

Este artículo describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.

En este artículo se explica cómo usar Databricks Connect para Python con JupyterLab. Databricks Connect permite conectar servidores de cuadernos populares, entornos de desarrollo integrado y otras aplicaciones personalizadas a clústeres de Azure Databricks. Consulte ¿Qué es Databricks Connect?

Nota:

Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.

Si quiere usar Databricks Connect con JupyterLab y Python, siga estas instrucciones.

  1. Para instalar JupyterLab, con el entorno virtual de Python activado, ejecute el siguiente comando desde el terminal o el símbolo del sistema:

    pip3 install jupyterlab
    
  2. Para iniciar JupyterLab en el explorador web, ejecute el siguiente comando desde el entorno virtual de Python activado:

    jupyter lab
    

    Si JupyterLab no aparece en el explorador web, copie la dirección URL que comienza por localhost o 127.0.0.1 desde su entorno virtual y escríbala en la barra de direcciones del explorador web.

  3. Crear un cuaderno nuevo: en el menú principal de JupyterLab, haga clic en Archivo > Nuevo > Cuaderno , seleccione Python 3 (ipykernel) y haga clic en Seleccionar.

  4. En la primera celda del cuaderno, escriba el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializar DatabricksSession, como se muestra en el código de ejemplo.

  5. Para ejecutar el cuaderno, haga clic en Run > Run All Cells. Todo el código se ejecuta localmente, mientras que todo el código que implique operaciones DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.

  6. Para depurar el cuaderno, haga clic en el icono de error (Enable Debugger) situado junto a Python 3 (ipykernel) en la barra de herramientas del cuaderno. Establezca uno o varios puntos de interrupción y, a continuación, haga clic en Run > Run All Cells. Todo el código se depura localmente, mientras que todo el código de Spark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.

  7. Para apagar JupyterLab, haga clic en File > Shut Down. Si el proceso de JupyterLab todavía se está ejecutando en el terminal o en el símbolo del sistema, detenga este proceso presionando Ctrl + c y después escribiendo y para confirmar.

Para obtener instrucciones de depuración más específicas, consulte Depurador.