Sdílet prostřednictvím


Instalace Databricks Connect pro Python

Poznámka:

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak nainstalovat Databricks Connect pro Python. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Instalace Databricks Connect pro Scala.

Požadavky

Pokud chcete nainstalovat Databricks Connect pro Python, musí být splněny následující požadavky:

  • Pokud se připojujete k výpočetním prostředkům bez serveru, váš pracovní prostor musí splňovat požadavky na výpočetní prostředky bez serveru.

    Poznámka:

    Bezserverové výpočetní prostředky se podporují ve verzi 15.1 Databricks Connect a vyšší. Kromě toho jsou plně kompatibilní verze Databricks Connect s verzí Databricks Runtime nebo nižší než verze Databricks Runtime na bezserverové verzi. Viz poznámky k verzi. Pokud chcete ověřit, jestli je verze Databricks Connect kompatibilní s bezserverovými výpočetními prostředky, přečtěte si téma Ověření připojení k Databricks.

  • Pokud se připojujete ke clusteru, musí cílový cluster splňovat požadavky na konfiguraci clusteru, které zahrnují požadavky na verzi databricks Runtime.

  • Na vývojovém počítači musíte mít nainstalovaný Python 3 a podverze Pythonu nainstalovaná na vývojovém počítači musí splňovat požadavky na verzi v následující tabulce.

    Typ výpočetních prostředků Verze Databricks Connect Kompatibilní verze Pythonu
    Bezserverová architektura 15.1 a vyšší 3.11
    Cluster 15.1 a vyšší 3.11
    Cluster 13.3 LTS až 14.3 LTS 3,10
  • Pokud používáte uživatelem definované funkce (UDF), místní podverze Pythonu se musí shodovat s podverzí Pythonu verze Databricks Runtime clusteru nebo bezserverového výpočetního prostředí. Pokud chcete zjistit podverzi Pythonu v rámci verze Databricks Runtime vašeho clusteru, přečtěte si část Systémové prostředí v poznámkách k vydání Databricks Runtime pro tuto verzi. Viz poznámky k verzi Databricks Runtime a poznámky k verzi kompatibility a bezserverové výpočetní verze.

Aktivace virtuálního prostředí Pythonu

Databricks důrazně doporučuje, abyste pro každou verzi Pythonu, kterou používáte s Databricks Connect, aktivovalo virtuální prostředí Pythonu. Virtuální prostředí Pythonu pomáhají zajistit, abyste společně používali správné verze Pythonu a Databricks Connect. Další informace o těchto nástrojích a o tom, jak je aktivovat, najdete v tématu venv nebo Báseň.

Instalace klienta Databricks Connect

Tato část popisuje, jak nainstalovat klienta Databricks Connect s venv nebo básní.

Poznámka:

Pokud už máte nainstalované rozšíření Databricks pro Visual Studio Code, nemusíte postupovat podle těchto pokynů k nastavení, protože rozšíření Databricks pro Visual Studio Code už má integrovanou podporu pro Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší. Přejděte k ladění kódu pomocí Databricks Connect pro rozšíření Databricks pro Visual Studio Code.

Instalace klienta Databricks Connect s venvem

  1. Po aktivaci virtuálního prostředí odinstalujte PySpark spuštěním uninstall příkazu. To je povinné, protože databricks-connect balíček je v konfliktu s PySpark. Podrobnosti najdete v tématu Konfliktní instalace PySpark. Pokud chcete zkontrolovat, jestli je PySpark už nainstalovaný, spusťte show příkaz.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Pokud je vaše virtuální prostředí stále aktivované, nainstalujte klienta Databricks Connect spuštěním install příkazu. --upgrade Pomocí možnosti upgradujte jakoukoli existující instalaci klienta na zadanou verzi.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste místo něj databricks-connect==X.Y.*databricks-connect=X.Ypřipojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

Instalace klienta Databricks Connect s poetií

  1. Po aktivaci virtuálního prostředí odinstalujte PySpark spuštěním remove příkazu. To je povinné, protože databricks-connect balíček je v konfliktu s PySpark. Podrobnosti najdete v tématu Konfliktní instalace PySpark. Pokud chcete zkontrolovat, jestli je PySpark už nainstalovaný, spusťte show příkaz.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Pokud je vaše virtuální prostředí stále aktivované, nainstalujte klienta Databricks Connect spuštěním add příkazu.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste místo databricks-connect@~15.4databricks-connect==15.4toho použili notaci at-tilde, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

Další kroky

Po instalaci Databricks Connect musíte nakonfigurovat připojení k Databricks. Viz Konfigurace výpočetních prostředků pro Databricks Connect.