Sdílet prostřednictvím


Migrace na Databricks Connect pro Python

Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.

Poznámka:

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Podle těchto pokynů migrujte stávající projekt kódu Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

  1. Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.

  2. Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.

  3. Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:

    pip3 uninstall pyspark
    
  4. S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:

    pip3 uninstall databricks-connect
    
  5. S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste místo něj databricks-connect==X.Y.*databricks-connect=X.Ypřipojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

  6. Aktualizujte kód Pythonu tak, aby inicializoval proměnnou spark (která představuje instanci DatabricksSession třídy, podobně jako SparkSession v PySpark). Viz Konfigurace výpočetních prostředků pro Databricks Connect.

  7. Migrujte rozhraní RDD API tak, aby používala rozhraní API datového rámce, a migrujte SparkContext je, abyste mohli používat alternativy.

Nastavení konfigurací Hadoopu

Na klientovi můžete nastavit konfigurace Hadoop pomocí rozhraní spark.conf.set API, které platí pro operace SQL a DataFrame. Konfigurace Hadoopu nastavené na sparkContext musí být nastaveny v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace nastavené na sparkContext nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.