Instalace Databricks Connect pro Python
Poznámka:
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak nainstalovat Databricks Connect pro Python. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Instalace Databricks Connect pro Scala.
Požadavky
Pokud chcete nainstalovat Databricks Connect pro Python, musí být splněny následující požadavky:
Pokud se připojujete k výpočetním prostředkům bez serveru, váš pracovní prostor musí splňovat požadavky na výpočetní prostředky bez serveru.
Poznámka:
Bezserverové výpočetní prostředky se podporují ve verzi 15.1 Databricks Connect a vyšší. Kromě toho jsou plně kompatibilní verze Databricks Connect s verzí Databricks Runtime nebo nižší než verze Databricks Runtime na bezserverové verzi. Viz poznámky k verzi. Pokud chcete ověřit, jestli je verze Databricks Connect kompatibilní s bezserverovými výpočetními prostředky, přečtěte si téma Ověření připojení k Databricks.
Pokud se připojujete ke clusteru, musí cílový cluster splňovat požadavky na konfiguraci clusteru, které zahrnují požadavky na verzi databricks Runtime.
Na vývojovém počítači musíte mít nainstalovaný Python 3 a podverze Pythonu nainstalovaná na vývojovém počítači musí splňovat požadavky na verzi v následující tabulce.
Typ výpočetních prostředků Verze Databricks Connect Kompatibilní verze Pythonu Bezserverová architektura 15.1 a vyšší 3.11 Cluster 15.1 a vyšší 3.11 Cluster 13.3 LTS až 14.3 LTS 3,10 Pokud používáte uživatelem definované funkce (UDF), místní podverze Pythonu se musí shodovat s podverzí Pythonu verze Databricks Runtime clusteru nebo bezserverového výpočetního prostředí. Pokud chcete zjistit podverzi Pythonu v rámci verze Databricks Runtime vašeho clusteru, přečtěte si část Systémové prostředí v poznámkách k vydání Databricks Runtime pro tuto verzi. Viz poznámky k verzi Databricks Runtime a poznámky k verzi kompatibility a bezserverové výpočetní verze.
Aktivace virtuálního prostředí Pythonu
Databricks důrazně doporučuje, abyste pro každou verzi Pythonu, kterou používáte s Databricks Connect, aktivovalo virtuální prostředí Pythonu. Virtuální prostředí Pythonu pomáhají zajistit, abyste společně používali správné verze Pythonu a Databricks Connect. Další informace o těchto nástrojích a o tom, jak je aktivovat, najdete v tématu venv nebo Báseň.
Instalace klienta Databricks Connect
Tato část popisuje, jak nainstalovat klienta Databricks Connect s venv nebo básní.
Poznámka:
Pokud už máte nainstalované rozšíření Databricks pro Visual Studio Code, nemusíte postupovat podle těchto pokynů k nastavení, protože rozšíření Databricks pro Visual Studio Code už má integrovanou podporu pro Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší. Přejděte k ladění kódu pomocí Databricks Connect pro rozšíření Databricks pro Visual Studio Code.
Instalace klienta Databricks Connect s venvem
Po aktivaci virtuálního prostředí odinstalujte PySpark spuštěním
uninstall
příkazu. To je povinné, protožedatabricks-connect
balíček je v konfliktu s PySpark. Podrobnosti najdete v tématu Konfliktní instalace PySpark. Pokud chcete zkontrolovat, jestli je PySpark už nainstalovaný, spusťteshow
příkaz.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Pokud je vaše virtuální prostředí stále aktivované, nainstalujte klienta Databricks Connect spuštěním
install
příkazu.--upgrade
Pomocí možnosti upgradujte jakoukoli existující instalaci klienta na zadanou verzi.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Poznámka:
Databricks doporučuje, abyste místo něj
databricks-connect==X.Y.*
databricks-connect=X.Y
připojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.
Instalace klienta Databricks Connect s poetií
Po aktivaci virtuálního prostředí odinstalujte PySpark spuštěním
remove
příkazu. To je povinné, protožedatabricks-connect
balíček je v konfliktu s PySpark. Podrobnosti najdete v tématu Konfliktní instalace PySpark. Pokud chcete zkontrolovat, jestli je PySpark už nainstalovaný, spusťteshow
příkaz.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Pokud je vaše virtuální prostředí stále aktivované, nainstalujte klienta Databricks Connect spuštěním
add
příkazu.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Poznámka:
Databricks doporučuje, abyste místo
databricks-connect@~15.4
databricks-connect==15.4
toho použili notaci at-tilde, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.
Další kroky
Po instalaci Databricks Connect musíte nakonfigurovat připojení k Databricks. Viz Konfigurace výpočetních prostředků pro Databricks Connect.