Compartilhar via


Funções definidas pelo usuário no Databricks Connect para Python

Observação

Esse artigo aborda o Databricks Connect para Databricks Runtime 13.1 e versões superiores.

Esse artigo descreve como executar UDFs com o Databricks Connect para Python. O Databricks Connect permite que você conecte IDEs, servidores de notebook populares e aplicativos personalizados aos clusters do Azure Databricks. Para ler a versão do Scala deste artigo, confira Funções definidas pelo usuário com o Databricks Connect para Scala.

Observação

Antes de começar a utilizar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.

O Databricks Connect para Python dá suporte a funções definidas pelo usuário (UDF). Quando uma operação de Dataframe que inclui UDFs é executada, os UDFs envolvidos são serializados pelo Databricks Connect e enviados ao servidor como parte da solicitação.

Observação

Como a função definida pelo usuário é serializada e desserializada, a versão do Python usada pelo cliente precisa corresponder à versão do Python no cluster do Azure Databricks. Para verificar a versão do Python do cluster, confira a seção “Ambiente do sistema” da versão do Databricks Runtime do cluster em Versões e compatibilidade das notas sobre a versão do Databricks Runtime.

O programa Python a seguir configura uma UDF simples que eleva ao quadrado os valores em uma coluna.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()