Uso de Jupyter Notebook clásico con Databricks Connect para Python
Nota:
Este artículo describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.
En este artículo se explica cómo usar Databricks Connect para Python con Jupyter Notebook clásico. Databricks Connect permite conectar servidores de cuadernos populares, entornos de desarrollo integrado y otras aplicaciones personalizadas a clústeres de Azure Databricks. Consulte ¿Qué es Databricks Connect?
Nota:
Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.
Para usar Databricks Connect con Jupyter Notebook clásico y Python, siga estas instrucciones.
Para instalar JupyterLab Notebook clásico, con el entorno virtual de Python activado, ejecute el siguiente comando desde el terminal o el símbolo del sistema:
pip3 install notebook
Para iniciar JupyterLab Notebook en el explorador web, ejecute el siguiente comando desde el entorno virtual de Python activado:
jupyter notebook
Si JupyterLab Notebook no aparece en el explorador web, copie la dirección URL que comienza por
localhost
o127.0.0.1
desde su entorno virtual y escríbala en la barra de direcciones del explorador web.Cree un cuaderno nuevo: en el Jupyter Notebook clásico, en la pestaña Archivos, haga clic en Nuevo > Python 3 (ipykernel).
En la primera celda del cuaderno, escriba el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializar
DatabricksSession
, como se muestra en el código de ejemplo.Para ejecutar el cuaderno, haga clic en Celda > Ejecutar todas. Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.
Para depurar el cuaderno, agregue la siguiente línea de código al principio del cuaderno:
from IPython.core.debugger import set_trace
Y, a continuación, llame a
set_trace()
para escribir instrucciones de depuración en ese punto de ejecución del cuaderno. Todo el código de Python se depura localmente, mientras que todo el código de PySpark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.Para apagar el Jupyter Notebook clásico, haga clic en Archivo > Cerrar y detener archivo. Si el proceso de JupyterLab Notebook clásico todavía se está ejecutando en el terminal o en el símbolo del sistema, detenga este proceso presionando
Ctrl + c
y después escribiendoy
para confirmar.