Dela via


Migrera till Databricks Connect för Python

Den här artikeln beskriver hur du migrerar från Databricks Connect för Databricks Runtime 12.2 LTS och nedan till Databricks Connect för Databricks Runtime 13.3 LTS och senare för Python. Med Databricks Connect kan du ansluta populära IDE:er, notebook-servrar och anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?. Scala-versionen av den här artikeln finns i Migrera till Databricks Connect för Scala.

Kommentar

Innan du börjar använda Databricks Connect måste du konfigurera Databricks Connect-klienten.

Följ dessa riktlinjer för att migrera ditt befintliga Python-kodprojekt eller kodningsmiljö från Databricks Connect för Databricks Runtime 12.2 LTS och nedan till Databricks Connect för Databricks Runtime 13.3 LTS och senare.

  1. Installera rätt version av Python enligt installationskraven för att matcha ditt Azure Databricks-kluster, om det inte redan är installerat lokalt.

  2. Uppgradera din virtuella Python-miljö för att använda rätt version av Python för att matcha klustret om det behövs. Anvisningar finns i dokumentationen för din virtuella miljöleverantör.

  3. När den virtuella miljön är aktiverad avinstallerar du PySpark från din virtuella miljö:

    pip3 uninstall pyspark
    
  4. När den virtuella miljön fortfarande är aktiverad avinstallerar du Databricks Connect för Databricks Runtime 12.2 LTS och nedan:

    pip3 uninstall databricks-connect
    
  5. När den virtuella miljön fortfarande är aktiverad installerar du Databricks Connect för Databricks Runtime 13.3 LTS och senare:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Kommentar

    Databricks rekommenderar att du lägger till notationen "dot-asterisk" för att ange databricks-connect==X.Y.* i stället för databricks-connect=X.Y, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.

  6. Uppdatera Python-koden för att initiera variabeln spark (som representerar en instansiering av DatabricksSession klassen, ungefär som SparkSession i PySpark). Se Beräkningskonfiguration för Databricks Connect.

  7. Migrera DINA RDD-API:er för att använda DataFrame-API:er och migrera dina SparkContext alternativ.

Ange Hadoop-konfigurationer

På klienten kan du ange Hadoop-konfigurationer med hjälp av API:et spark.conf.set , som gäller för SQL- och DataFrame-åtgärder. Hadoop-konfigurationer som angetts för sparkContext måste anges i klusterkonfigurationen eller med hjälp av en notebook-fil. Det beror på sparkContext att konfigurationer som angetts inte är knutna till användarsessioner utan gäller för hela klustret.