다음을 통해 공유


Python용 Databricks Connect 설치

참고 항목

이 문서에서는 Databricks Runtime 13.3 LTS 이상에 대한 Databricks Connect에 대해 설명합니다.

이 문서에서는 Python용 Databricks Connect를 설치하는 방법을 설명합니다. Databricks Connect란?을 참조하세요. 이 문서의 Scala 버전은 Scala용 Databricks Connect 설치를 참조하세요.

요구 사항

Python용 Databricks Connect를 설치하려면 다음 요구 사항을 충족해야 합니다.

  • 서버리스 컴퓨팅연결하는 경우 작업 영역이 서버리스 컴퓨팅에 대한 요구 사항을 충족해야 합니다.

    참고 항목

    서버리스 컴퓨팅은 Databricks Connect 버전 15.1 이상에서 지원됩니다. 또한 서버리스의 Databricks 런타임 릴리스보다 작거나 낮은 Databricks Connect 버전은 완전히 호환됩니다. 릴리스 정보를 참조하세요. Databricks Connect 버전이 서버리스 컴퓨팅과 호환되는지 확인하려면 Databricks에 대한 연결 유효성 검사를 참조 하세요.

  • 클러스터연결하는 경우 대상 클러스터는 Databricks 런타임 버전 요구 사항을 포함하는 클러스터 구성 요구 사항을 충족해야 합니다.

  • 개발 머신에 Python 3이 설치되어 있어야 하며, 개발 머신에 설치된 부 버전의 Python은 아래 표의 버전 요구 사항을 충족해야 합니다.

    컴퓨팅 형식 Databricks Connect 버전 호환되는 Python 버전
    서버를 사용하지 않음 15.1 이상 3.11
    클러스터 15.1 이상 3.11
    클러스터 13.3 LTS에서 14.3 LTS로 3.10
  • PySpark UDF를 사용하려면 개발 머신의 설치된 부 버전의 Python이 클러스터 또는 서버리스 컴퓨팅에 설치된 Databricks 런타임에 포함된 Python의 부 버전과 일치해야 합니다. 클러스터의 부 Python 버전을 찾으려면 클러스터 또는 서버리스 컴퓨팅에 대한 Databricks 런타임 릴리스 정보의 시스템 환경 섹션을 참조하세요. Databricks 런타임 릴리스 정보 버전 및 호환성서버리스 컴퓨팅 릴리스 정보를 참조하세요.

Python 가상 환경 활성화

Databricks는 Databricks Connect에서 사용하는 각 Python 버전에 대해 Python 가상 환경을 활성화하는 것이 좋습니다. Python 가상 환경은 올바른 버전의 Python 및 Databricks Connect를 함께 사용하는지 확인하는 데 도움이 됩니다. 이러한 도구 및 활성화 방법에 대한 자세한 내용은 venv 또는 를 참조하세요.

Databricks Connect 클라이언트 설치

이 섹션에서는 venv 또는 Poetry를 사용하여 Databricks Connect 클라이언트를 설치하는 방법을 설명합니다.

참고 항목

Visual Studio Code용 Databricks 확장이 이미 설치된 경우 Visual Studio Code용 Databricks 확장은 Databricks Runtime 13.3 LTS 이상에 대한 Databricks Connect를 이미 기본적으로 지원하므로 이러한 설정 지침을 따를 필요가 없습니다. Visual Studio Code용 Databricks 확장에 Databricks Connect를 사용하여 디버그 코드로 건너뜁니다.

venv를 사용하여 Databricks Connect 클라이언트 설치

  1. 가상 환경이 활성화되면 명령을 실행 uninstall 하여 PySpark가 이미 설치된 경우 제거합니다. databricks-connect 패키지가 PySpark와 충돌하기 때문에 필요한 작업입니다. 자세한 내용은 PySpark 설치 충돌을 참조하세요. PySpark가 이미 설치되어 있는지 확인하려면 명령을 실행합니다 show .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. 가상 환경이 계속 활성화된 상태에서 명령을 실행하여 Databricks Connect 클라이언트를 설치합니다 install . --upgrade 이 옵션을 사용하여 기존 클라이언트 설치를 지정된 버전으로 업그레이드합니다.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    참고 항목

    Databricks는 "점 별표" 표기법을 추가하여 가장 최근 패키지가 설치되었는지 확인하는 대신 databricks-connect=X.Y지정 databricks-connect==X.Y.* 하는 것이 좋습니다. 이는 요구 사항은 아니지만 해당 클러스터에 지원되는 최신 기능을 사용할 수 있는지 확인하는 데 도움이 됩니다.

시를 사용하여 Databricks Connect 클라이언트 설치

  1. 가상 환경이 활성화되면 명령을 실행 remove 하여 PySpark가 이미 설치된 경우 제거합니다. databricks-connect 패키지가 PySpark와 충돌하기 때문에 필요한 작업입니다. 자세한 내용은 PySpark 설치 충돌을 참조하세요. PySpark가 이미 설치되어 있는지 확인하려면 명령을 실행합니다 show .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. 가상 환경이 계속 활성화된 상태에서 명령을 실행하여 Databricks Connect 클라이언트를 설치합니다 add .

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    참고 항목

    Databricks는 "at-tilde" 표기법을 사용하여 가장 최근 패키지가 설치되어 있는지 확인하는 대신 databricks-connect==15.4지정 databricks-connect@~15.4 하는 것이 좋습니다. 이는 요구 사항은 아니지만 해당 클러스터에 지원되는 최신 기능을 사용할 수 있는지 확인하는 데 도움이 됩니다.

다음 단계

Databricks Connect를 설치한 후 Databricks에 대한 연결을 구성해야 합니다. Databricks Connect에 대한 컴퓨팅 구성을 참조하세요.