다음을 통해 공유


Python용 Databricks Connect의 사용자 정의 함수

메모

이 문서에서는 Databricks Runtime 13.1 이상용 Databricks Connect에 대해 설명합니다.

이 문서에서는 Python용 Databricks Connect를 사용하여 UDF를 실행하는 방법을 설명합니다. Databricks Connect를 사용하면 인기 있는 IDE, Notebook 서버 및 사용자 지정 애플리케이션을 Azure Databricks 클러스터에 연결할 수 있습니다. 이 문서의 Scala 버전은 Databricks Connect for Scala사용자 정의 함수를 참조하세요.

메모

Databricks Connect 사용을 시작하기 전에 Databricks Connect 클라이언트설정해야 합니다.

Python용 Databricks Connect는 UDF(사용자 정의 함수)를 지원합니다. UDF를 포함하는 데이터 프레임 작업이 실행되면 관련된 UDF가 Databricks Connect에 의해 직렬화되고 요청의 일부로 서버로 전송됩니다.

메모

사용자 정의 함수는 직렬화되고 역직렬화되므로 클라이언트에서 사용하는 Python 버전은 Azure Databricks 클러스터의 Python 버전과 일치해야 합니다. 클러스터의 Python 버전을 확인하려면 Databricks 런타임 릴리스 정보 버전 및 호환성클러스터의 Databricks 런타임 버전에 대한 "시스템 환경" 섹션을 참조하세요.

다음 Python 프로그램은 열의 값을 제곱하는 간단한 UDF를 설정합니다.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()