Funções definidas pelo usuário no Databricks Connect for Python
Observação
Este artigo aborda o Databricks Connect para o Databricks Runtime 13.1 e superior.
Este artigo descreve como executar UDFs com o Databricks Connect for Python. O Databricks Connect permite conectar IDEs populares, servidores de notebook e aplicativos personalizados a clusters do Azure Databricks. Para a versão Scala deste artigo, consulte funções definidas pelo usuário no Databricks Connect for Scala.
Observação
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
O Databricks Connect for Python suporta funções definidas pelo usuário (UDF). Quando uma operação Dataframe que inclui UDFs é executada, as UDFs envolvidas são serializadas pelo Databricks Connect e enviadas para o servidor como parte da solicitação.
Observação
Como a função definida pelo usuário é serializada e desserializada, a versão do Python usada pelo cliente deve corresponder à versão do Python no cluster do Azure Databricks. Para verificar a versão do Python do cluster, consulte a seção "Ambiente do Sistema" para a versão do Databricks Runtime do cluster nas notas de versão de compatibilidade do Databricks Runtime em e.
O programa Python a seguir configura um UDF simples que quadra valores em uma coluna.
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession
@udf(returnType=IntegerType())
def double(x):
return x * x
spark = DatabricksSession.builder.getOrCreate()
df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))
df.show()