Funkcje zdefiniowane przez użytkownika w narzędziu Databricks Connect dla języka Python
Notatka
W tym artykule opisano program Databricks Connect dla środowiska Databricks Runtime 13.1 lub nowszego.
W tym artykule opisano sposób wykonywania funkcji zdefiniowanych przez użytkownika (UDF) za pomocą programu Databricks Connect dla języka Python. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Aby zapoznać się z wersją tego artykułu dla języka Scala, zobacz funkcje zdefiniowane przez użytkownika w programie Databricks Connect dla Scali.
Notatka
Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta usługi Databricks Connect.
Program Databricks Connect dla języka Python obsługuje funkcje zdefiniowane przez użytkownika (UDF). Gdy wykonywana jest operacja ramki danych obejmująca funkcje zdefiniowane przez użytkownika, zaangażowane funkcje zdefiniowane przez użytkownika są serializowane przez usługę Databricks Connect i wysyłane do serwera w ramach żądania.
Notatka
Ponieważ funkcja zdefiniowana przez użytkownika jest serializowana i deserializowana, wersja języka Python używana przez klienta musi być zgodna z wersją języka Python w klastrze usługi Azure Databricks. Aby sprawdzić wersję języka Python klastra, zobacz sekcję "Środowisko Systemu" dla wersji środowiska Databricks Runtime klastra w uwagach dotyczących wersji i zgodności Databricks Runtime.
Poniższy program w języku Python konfiguruje prostą funkcję zdefiniowanej przez użytkownika, która kwadratuje wartości w kolumnie.
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession
@udf(returnType=IntegerType())
def double(x):
return x * x
spark = DatabricksSession.builder.getOrCreate()
df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))
df.show()