Fonctions définies par l’utilisateur dans Databricks Connect pour Python
Remarque
Cet article décrit Databricks Connect pour Databricks Runtime 13.1 et versions ultérieures.
Cet article explique comment installer des fonctions UDF avec Databricks Connect pour Python. Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires, des serveurs notebook et des applications personnalisées aux clusters Azure Databricks. Pour obtenir la version Scala de cet article, consultez Fonctions définies par l’utilisateur dans Databricks Connect pour Scala.
Remarque
Avant de commencer à utiliser Databricks Connect, vous devez configurer le client Databricks Connect.
Databricks Connect pour Python prend en charge les fonctions définies par l’utilisateur. Quand une opération de DataFrame incluant des fonctions définies par l’utilisateur est exécutée, les fonctions définies par l’utilisateur sont sérialisées par Databricks Connect et envoyées au serveur dans le cadre de la requête.
Remarque
Comme la fonction définie par l’utilisateur est sérialisée et désérialisée, la version Python utilisée par le client doit correspondre à la version Python sur le cluster Azure Databricks. Pour vérifier la version Python du cluster, consultez la section « Environnement système » pour la version Databricks Runtime du cluster dans la rubrique Versions et compatibilité des notes de publication de Databricks Runtime.
Le programme Python suivant configure une fonction UDF simple qui place les valeurs dans une colonne.
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession
@udf(returnType=IntegerType())
def double(x):
return x * x
spark = DatabricksSession.builder.getOrCreate()
df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))
df.show()