Instalowanie programu Databricks Connect dla języka Python
Uwaga
W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
W tym artykule opisano sposób instalowania programu Databricks Connect dla języka Python. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Install Databricks Connect for Scala (Instalowanie programu Databricks Connect dla języka Scala).
Wymagania
Aby zainstalować program Databricks Connect dla języka Python, należy spełnić następujące wymagania:
Jeśli łączysz się z bezserwerowym obliczeniami, obszar roboczy musi spełniać wymagania dotyczące przetwarzania bezserwerowego.
Uwaga
Przetwarzanie bezserwerowe jest obsługiwane w programie Databricks Connect w wersji 15.1 lub nowszej. Ponadto wersje programu Databricks Connect w wersji databricks Runtime lub niższej niż wersja środowiska Databricks Runtime w wersji bezserwerowej są w pełni zgodne. Zobacz Informacje o wersji. Aby sprawdzić, czy wersja programu Databricks Connect jest zgodna z obliczeniami bezserwerowymi, zobacz Weryfikowanie połączenia z usługą Databricks.
Jeśli łączysz się z klastrem, klaster docelowy musi spełniać wymagania dotyczące konfiguracji klastra, które obejmują wymagania dotyczące wersji środowiska Databricks Runtime.
Na komputerze deweloperskim musi być zainstalowany język Python 3, a wersja pomocnicza języka Python zainstalowana na komputerze deweloperskim musi spełniać wymagania dotyczące wersji w poniższej tabeli.
Typ środowiska obliczeniowego Wersja programu Databricks Connect Zgodna wersja języka Python Praca bezserwerowa 15.1 i nowsze 3.11 Klaster 15.1 i nowsze 3.11 Klaster 13.3 LTS do 14.3 LTS 3,10 Jeśli używasz funkcji definiowanych przez użytkownika (UDF), lokalna wersja podrzędna języka Python musi być zgodna z wersją podrzędną języka Python w wersji Databricks Runtime dla klastra lub instancji przetwarzania bezserwerowego. Aby znaleźć pomocniczą wersję języka Python w wersji Databricks Runtime dla klastra, zapoznaj się z sekcją środowiska systemowego w informacjach o wydaniu tej wersji Databricks Runtime. Zobacz Informacje o wersji środowiska Databricks Runtime i informacje o zgodności oraz informacje o wersji obliczeniowej bezserwerowej.
Aktywowanie środowiska wirtualnego języka Python
Usługa Databricks zdecydowanie zaleca aktywowanie środowiska wirtualnego języka Python dla każdej wersji języka Python używanej z usługą Databricks Connect. Środowiska wirtualne języka Python pomagają upewnić się, że używasz poprawnych wersji języka Python i usługi Databricks Connect razem. Aby uzyskać więcej informacji na temat tych narzędzi i sposobu ich aktywowania, zobacz venv lub Poezja.
Instalowanie klienta usługi Databricks Connect
W tej sekcji opisano sposób instalowania klienta programu Databricks Connect za pomocą oprogramowania venv lub poezji.
Uwaga
Jeśli masz już zainstalowane rozszerzenie Databricks dla programu Visual Studio Code, nie musisz wykonywać tych instrukcji konfiguracji, ponieważ rozszerzenie usługi Databricks dla programu Visual Studio Code ma już wbudowaną obsługę programu Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego. Przejdź do sekcji Debugowanie kodu przy użyciu usługi Databricks Connect dla rozszerzenia usługi Databricks dla programu Visual Studio Code.
Instalowanie klienta usługi Databricks Connect za pomocą programu venv
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając
uninstall
polecenie . Jest to wymagane, ponieważdatabricks-connect
pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchomshow
polecenie .# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając
install
polecenie .--upgrade
Użyj opcji , aby uaktualnić dowolną istniejącą instalację klienta do określonej wersji.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Uwaga
Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić
databricks-connect==X.Y.*
zamiastdatabricks-connect=X.Y
, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.
Instalowanie klienta usługi Databricks Connect za pomocą poezji
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając
remove
polecenie . Jest to wymagane, ponieważdatabricks-connect
pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchomshow
polecenie .# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając
add
polecenie .poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Uwaga
Usługa Databricks zaleca użycie notacji "at-tilde", aby określić
databricks-connect@~15.4
zamiastdatabricks-connect==15.4
, aby upewnić się, że najnowszy pakiet jest zainstalowany. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.
Następne kroki
Po zainstalowaniu programu Databricks Connect należy skonfigurować połączenie z usługą Databricks. Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.