Migrera till Databricks Connect för Python
Den här artikeln beskriver hur du migrerar från Databricks Connect för Databricks Runtime 12.2 LTS och nedan till Databricks Connect för Databricks Runtime 13.3 LTS och senare för Python. Med Databricks Connect kan du ansluta populära IDE:er, notebook-servrar och anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?. Scala-versionen av den här artikeln finns i Migrera till Databricks Connect för Scala.
Kommentar
Innan du börjar använda Databricks Connect måste du konfigurera Databricks Connect-klienten.
Följ dessa riktlinjer för att migrera ditt befintliga Python-kodprojekt eller kodningsmiljö från Databricks Connect för Databricks Runtime 12.2 LTS och nedan till Databricks Connect för Databricks Runtime 13.3 LTS och senare.
Installera rätt version av Python enligt installationskraven för att matcha ditt Azure Databricks-kluster, om det inte redan är installerat lokalt.
Uppgradera din virtuella Python-miljö för att använda rätt version av Python för att matcha klustret om det behövs. Anvisningar finns i dokumentationen för din virtuella miljöleverantör.
När den virtuella miljön är aktiverad avinstallerar du PySpark från din virtuella miljö:
pip3 uninstall pyspark
När den virtuella miljön fortfarande är aktiverad avinstallerar du Databricks Connect för Databricks Runtime 12.2 LTS och nedan:
pip3 uninstall databricks-connect
När den virtuella miljön fortfarande är aktiverad installerar du Databricks Connect för Databricks Runtime 13.3 LTS och senare:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Kommentar
Databricks rekommenderar att du lägger till notationen "dot-asterisk" för att ange
databricks-connect==X.Y.*
i stället fördatabricks-connect=X.Y
, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.Uppdatera Python-koden för att initiera variabeln
spark
(som representerar en instansiering avDatabricksSession
klassen, ungefär somSparkSession
i PySpark). Se Beräkningskonfiguration för Databricks Connect.Migrera DINA RDD-API:er för att använda DataFrame-API:er och migrera dina
SparkContext
alternativ.
Ange Hadoop-konfigurationer
På klienten kan du ange Hadoop-konfigurationer med hjälp av API:et spark.conf.set
, som gäller för SQL- och DataFrame-åtgärder. Hadoop-konfigurationer som angetts för sparkContext
måste anges i klusterkonfigurationen eller med hjälp av en notebook-fil. Det beror på sparkContext
att konfigurationer som angetts inte är knutna till användarsessioner utan gäller för hela klustret.