Uso de Eclipse con PyDev y Databricks Connect para Python
Nota:
Este artículo describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.
En este artículo se explica cómo usar Databricks Connect para Scala y Eclipse con PyDev. Databricks Connect le permite conectar los clústeres de Azure Databricks a entornos de desarrollo integrado populares, servidores de cuadernos y otras aplicaciones personalizadas. Consulte ¿Qué es Databricks Connect?
Nota:
Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.
Para usar Databricks Connect y Eclipse con PyDev, siga estas instrucciones.
- Inicie Eclipse.
- Cree un proyecto: haga clic en Archivo > Nuevo > Proyecto > PyDev > Proyecto de PyDev y , a continuación, haga clic en Siguiente.
- Especifique un nombre de proyecto.
- En Contenido del proyecto, especifique la ruta de acceso al entorno virtual de Python.
- Haga clic en Configurar un intérprete antes de continuar.
- Haga clic en Configuración manual.
- Haga clic en Nuevo > Buscar python/pypy exe.
- Navegue hasta la ruta de acceso completa al intérprete de Python al que se hace referencia en el entorno virtual y selecciónela. A continuación, haga clic en Abrir.
- En el diálogo Seleccionar intérprete, haga clic en Aceptar.
- En el diálogo Selección necesaria, haga clic en Aceptar.
- En el diálogo Preferencias, haga clic en Aplicar y cerrar.
- En el diálogo Proyecto de PyDev, haga clic en Finalizar.
- Haga clic en Abrir perspectiva.
- Agregue al proyecto un archivo de código de Python (
.py
) que contenga el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializarDatabricksSession
, como se muestra en el código de ejemplo. - Con el archivo de código de Python abierto, establezca los puntos de interrupción en los que quiera que se detenga el código cuando se ejecuta.
- Para ejecutar el código, haga clic en Ejecución > Ejecutar. Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.
- Para depurar el código, haga clic en Ejecución > Depurar. Todo el código de Python se depura localmente, mientras que todo el código de PySpark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.
Para obtener instrucciones de ejecución y depuración más específicas, consulte Ejecución de un programa.