Migrace na Databricks Connect pro Python
Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.
Poznámka:
Než začnete používat Databricks Connect, musíte set klienta Databricks Connect.
Podle těchto pokynů migrujte stávající projekt kódu Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.
Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.
Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:
pip3 uninstall pyspark
S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:
pip3 uninstall databricks-connect
S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Poznámka:
Databricks doporučuje, abyste místo něj
databricks-connect==X.Y.*
databricks-connect=X.Y
připojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.Update kódu Pythonu k inicializaci proměnné
spark
(která představuje instanci třídyDatabricksSession
, podobně jakoSparkSession
v PySpark). Viz Konfigurace výpočetních prostředků pro Databricks Connect.Migrujte rozhraní RDD API tak, aby používala rozhraní API datového rámce, a migrujte
SparkContext
je, abyste mohli používat alternativy.
Set Konfigurace Hadoop
Na klientské straně můžete set konfigurace Hadoopu pomocí rozhraní spark.conf.set
API, které se vztahuje na operace SQL a DataFrame. Konfigurace Hadoopu set na sparkContext
musí být set v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace set na sparkContext
nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.