Compartir vía


Migración a Databricks Connect para Python

En este artículo se describe cómo migrar de Databricks Connect para Databricks Runtime 12.2 LTS y versiones anteriores a Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores para Python. Databricks Connect le permite conectar los clústeres de Azure Databricks a entornos de desarrollo integrado populares, servidores de cuadernos y otras aplicaciones personalizadas. Consulte ¿Qué es Databricks Connect?. Para obtener la versión de Scala de este artículo, consulte Migración a Databricks Connect para Scala.

Nota:

Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.

Siga estas instrucciones para migrar el proyecto de código de Python existente o el entorno de codificación desde Databricks Connect para Databricks Runtime 12.2 LTS y versiones anteriores a Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.

  1. Instale la versión correcta de Python como se muestra en los requisitos de instalación para que coincida con el clúster Azure Databricks, si no está ya instalado localmente.

  2. Actualice el entorno virtual de Python para usar la versión correcta de Python para que coincida con el clúster, si es necesario. Para obtener instrucciones, consulte la documentación del proveedor de entorno virtual.

  3. Con el entorno virtual activado, desinstale PySpark de su entorno virtual:

    pip3 uninstall pyspark
    
  4. Con el entorno virtual aún activado, desinstale Databricks Connect para Databricks Runtime 12.2 LTS y versiones anteriores:

    pip3 uninstall databricks-connect
    
  5. Con el entorno virtual aún activado, instale Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Nota:

    Databricks recomienda anexar la notación "dot-asterisk" para especificar databricks-connect==X.Y.* en lugar de databricks-connect=X.Y, para asegurarse de que está instalado el paquete más reciente. Aunque esto no es un requisito, permite asegurarse de que puede usar las características más recientes que admite ese clúster.

  6. Actualice el código de Python para inicializar la variable spark (que representa una creación de instancias de la clase DatabricksSession, similar a SparkSession en PySpark). Consulte Configuración de proceso para Databricks Connect.

  7. Migre las API de RDD para usar las API de DataFrame y migre SparkContext para usar alternativas.

Establecimiento de las configuraciones de Hadoop

En el cliente, puede establecer configuraciones de Hadoop mediante la API spark.conf.set, que se aplica a las operaciones de DataFrame y SQL. Las configuraciones de Hadoop establecidas en sparkContext se deben establecer en la configuración del clúster o mediante un cuaderno. Esto se debe a que las configuraciones establecidas en sparkContext no están vinculadas a sesiones de usuario, sino que se aplican a todo el clúster.