다음을 통해 공유


Python용 Databricks Connect로 마이그레이션

이 문서에서는 Databricks Runtime 12.2 LTS 이하의 Databricks Connect for Databricks Connect for Databricks Runtime 13.3 LTS 이상으로 마이그레이션하는 방법을 설명합니다. Databricks Connect를 사용하면 인기 있는 IDE, Notebook 서버 및 사용자 지정 애플리케이션을 Azure Databricks 클러스터에 연결할 수 있습니다. Databricks Connect란?을 참조하세요. 이 문서의 Scala 버전은 Scala용 Databricks Connect로 마이그레이션을 참조하세요.

참고 항목

Databricks Connect 사용을 시작하기 전에 Databricks Connect 클라이언트를 설정해야 합니다.

다음 지침에 따라 Databricks Runtime 12.2 LTS 이하의 Databricks Connect for Databricks Connect 13.3 LTS 이상으로 기존 Python 코드 프로젝트 또는 코딩 환경을 마이그레이션합니다.

  1. 아직 로컬로 설치되지 않은 경우 Azure Databricks 클러스터와 일치하도록 설치 요구 사항에 나열된 대로 올바른 버전의 Python을 설치합니다.

  2. 필요한 경우 올바른 버전의 Python을 사용하여 클러스터와 일치하도록 Python 가상 환경을 업그레이드합니다. 지침은 가상 환경 공급자의 설명서를 참조하세요.

  3. 가상 환경이 활성화되면 가상 환경에서 PySpark를 제거합니다.

    pip3 uninstall pyspark
    
  4. 가상 환경이 계속 활성화된 상태에서 Databricks Runtime 12.2 LTS 이하에 대한 Databricks Connect를 제거합니다.

    pip3 uninstall databricks-connect
    
  5. 가상 환경이 계속 활성화된 상태에서 Databricks Runtime 13.3 LTS 이상용 Databricks Connect를 설치합니다.

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    참고 항목

    Databricks는 "점 별표" 표기법을 추가하여 가장 최근 패키지가 설치되었는지 확인하는 대신 databricks-connect=X.Y지정 databricks-connect==X.Y.* 하는 것이 좋습니다. 이는 요구 사항은 아니지만 해당 클러스터에 지원되는 최신 기능을 사용할 수 있는지 확인하는 데 도움이 됩니다.

  6. Python 코드를 업데이트하여 변수를 초기화 spark 합니다(PySpark와 유사하게 SparkSession 클래스의 DatabricksSession 인스턴스화를 나타낸다). Databricks Connect에 대한 컴퓨팅 구성을 참조하세요.

  7. RDD API를 마이그레이션하여 DataFrame API를 사용하고 대안을 사용하도록 마이그레이션 SparkContext 합니다.

Hadoop 구성 설정

클라이언트에서 spark.conf.set API를 사용하여 Hadoop 구성을 설정할 수 있습니다. 이 구성은 SQL 및 DataFrame 작업에 적용됩니다. sparkContext에 설정된 Hadoop 구성은 클러스터 구성 또는 Notebook을 사용하여 설정해야 합니다. 이는 sparkContext에 설정된 구성이 사용자 세션에 연결되지 않고 전체 클러스터에 적용되기 때문입니다.