Compartir vía


Funciones definidas por el usuario en Databricks Connect para Python

Nota:

En este artículo se habla de Databricks Connect para Databricks Runtime 13.1 y versiones posteriores.

En este artículo se describe cómo ejecutar una UDF con Databricks Connect para Python. Databricks Connect le permite conectar los clústeres de Azure Databricks a entornos de desarrollo integrado populares, servidores de cuadernos y otras aplicaciones personalizadas. Para obtener la versión de Scala de este artículo, consulte Funciones definidas por el usuario en Databricks Connect para Scala.

Nota:

Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.

Databricks Connect para Python admite funciones definidas por el usuario (UDF). Cuando se ejecuta una operación Dataframe que incluye UDF, Databricks Connect serializa las UDF implicadas y se envían al servidor como parte de la solicitud.

Nota:

Dado que la función definida por el usuario se serializa y deserializa, la versión de Python usada por el cliente debe coincidir con la versión de Python en el clúster de Azure Databricks. Para comprobar la versión de Python del clúster, consulte la sección "Entorno del sistema" para conocer la versión de Databricks Runtime del clúster en Versiones y compatibilidad de las notas de la versión de Databricks Runtime.

El siguiente programa de Python configura una UDF simple que cuadra los valores de una columna.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()