Instalar Databricks Connect para Python
Nota:
Este artículo describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.
En este artículo se describe cómo instalar Databricks Connect para Python. Consulte ¿Qué es Databricks Connect? Para obtener la versión de Scala de este artículo, consulte Instalar Databricks Connect para Scala.
Requisitos
Para instalar Databricks Connect para Python, se deben cumplir los siguientes requisitos:
Si se conecta al proceso sin servidor, el área de trabajo debe cumplir los requisitos de proceso sin servidor.
Nota:
El proceso sin servidor se admite en Databricks Connect versión 15.1 y posteriores. Además, las versiones de Databricks Connect iguales o anteriores a la versión de Databricks Runtime en sin servidor son totalmente compatibles. Consulte las Notas de la versión. Para comprobar si la versión de Databricks Connect es compatible con el proceso sin servidor, consulte Validación de la conexión a Databricks.
Si se conecta a un clúster, el clúster de destino debe cumplir los requisitos de configuración del clúster, que incluye los requisitos de versión de Databricks Runtime.
Debe tener Python 3 instalado en la máquina de desarrollo y la versión secundaria de Python instalada en la máquina de desarrollo debe cumplir los requisitos de versión de la tabla siguiente.
Compute type (Tipo de proceso) Versión de Databricks Connect Versión compatible de Python Sin servidor 15.1 y versiones posteriores 3,11 Clúster 15.1 y versiones posteriores 3,11 Clúster 13.3 LTS a 14.3 LTS 3.10 Si desea usar UDF de PySpark, la versión secundaria instalada de la máquina de desarrollo de Python debe coincidir con la versión secundaria de Python que se incluye con Databricks Runtime instalado en el clúster o el proceso sin servidor. Para buscar la versión secundaria de Python del clúster, consulte la sección Entorno del sistema de las notas de la versión de Databricks Runtime para el clúster o el proceso sin servidor. Consulte Notas de la versión de Databricks Runtime y compatibilidad y Notas de la versión de proceso sin servidor.
Activar un entorno virtual de Python
Databricks recomienda que tenga un entorno virtual de Python activado para cada versión de Python que use con Databricks Connect. Los entornos virtuales de Python ayudan a garantizar que usa las versiones correctas de Python y Databricks Connect juntas. Para obtener más información sobre estas herramientas y cómo activarlas, consulte venv o Poetry.
Instale el cliente de Databricks Connect
En esta sección se describe cómo instalar el cliente de Databricks Connect con venv o Poetry.
Nota:
Si ya tiene instalada la extensión Databricks para Visual Studio Code, no es necesario seguir estas instrucciones de configuración, ya que la extensión Databricks para Visual Studio Code ya tiene compatibilidad integrada con Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores. Vaya a Depuración de código mediante Databricks Connect para la extensión de Databricks para Visual Studio Code.
Instalación del cliente de Databricks Connect con venv
Con el entorno virtual activado, desinstale PySpark, si ya está instalado, ejecutando el comando
uninstall
. Esto es necesario porque el paquetedatabricks-connect
entra en conflicto con PySpark. Para información detallada, consulte Instalaciones de PySpark en conflicto. Para comprobar si PySpark ya está instalado, ejecute el comandoshow
.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Con el entorno virtual aún activado, instale el cliente de Databricks Connect mediante la ejecución del comando
install
. Use la opción--upgrade
para actualizar cualquier instalación de cliente existente a la versión especificada.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Nota:
Databricks recomienda anexar la notación "dot-asterisk" para especificar
databricks-connect==X.Y.*
en lugar dedatabricks-connect=X.Y
, para asegurarse de que está instalado el paquete más reciente. Aunque esto no es un requisito, permite asegurarse de que puede usar las características más recientes que admite ese clúster.
Instalación del cliente de Databricks Connect con Poetry
Con el entorno virtual activado, desinstale PySpark, si ya está instalado, ejecutando el comando
remove
. Esto es necesario porque el paquetedatabricks-connect
entra en conflicto con PySpark. Para información detallada, consulte Instalaciones de PySpark en conflicto. Para comprobar si PySpark ya está instalado, ejecute el comandoshow
.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Con el entorno virtual aún activado, instale el cliente de Databricks Connect mediante la ejecución del comando
add
.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Nota:
Databricks recomienda usar la “notación at-tilde” para especificar
databricks-connect@~15.4
en lugar dedatabricks-connect==15.4
, para asegurarse de que el paquete más reciente está instalado. Aunque esto no es un requisito, permite asegurarse de que puede usar las características más recientes que admite ese clúster.
Pasos siguientes
Después de instalar Databricks Connect, debe configurar una conexión a Databricks. Consulte Configuración de proceso para Databricks Connect.