Sdílet prostřednictvím


Migrace na Databricks Connect pro Python

Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.

Poznámka:

Než začnete používat Databricks Connect, musíte set klienta Databricks Connect.

Podle těchto pokynů migrujte stávající projekt kódu Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

  1. Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.

  2. Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.

  3. Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:

    pip3 uninstall pyspark
    
  4. S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:

    pip3 uninstall databricks-connect
    
  5. S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste místo něj databricks-connect==X.Y.*databricks-connect=X.Ypřipojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

  6. Update kódu Pythonu k inicializaci proměnné spark (která představuje instanci třídy DatabricksSession, podobně jako SparkSession v PySpark). Viz Konfigurace výpočetních prostředků pro Databricks Connect.

  7. Migrujte rozhraní RDD API tak, aby používala rozhraní API datového rámce, a migrujte SparkContext je, abyste mohli používat alternativy.

Set Konfigurace Hadoop

Na klientské straně můžete set konfigurace Hadoopu pomocí rozhraní spark.conf.set API, které se vztahuje na operace SQL a DataFrame. Konfigurace Hadoopu set na sparkContext musí být set v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace set na sparkContext nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.