Udostępnij za pośrednictwem


Instalowanie programu Databricks Connect dla języka Python

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

W tym artykule opisano sposób instalowania programu Databricks Connect dla języka Python. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Install Databricks Connect for Scala (Instalowanie programu Databricks Connect dla języka Scala).

Wymagania

Aby zainstalować program Databricks Connect dla języka Python, należy spełnić następujące wymagania:

  • Jeśli łączysz się z bezserwerowym obliczeniami, obszar roboczy musi spełniać wymagania dotyczące przetwarzania bezserwerowego.

    Uwaga

    Przetwarzanie bezserwerowe jest obsługiwane w programie Databricks Connect w wersji 15.1 lub nowszej. Ponadto wersje programu Databricks Connect w wersji databricks Runtime lub niższej niż wersja środowiska Databricks Runtime w wersji bezserwerowej są w pełni zgodne. Zobacz Informacje o wersji. Aby sprawdzić, czy wersja programu Databricks Connect jest zgodna z obliczeniami bezserwerowymi, zobacz Weryfikowanie połączenia z usługą Databricks.

  • Jeśli łączysz się z klastrem, klaster docelowy musi spełniać wymagania dotyczące konfiguracji klastra, które obejmują wymagania dotyczące wersji środowiska Databricks Runtime.

  • Na komputerze deweloperskim musi być zainstalowany język Python 3, a wersja pomocnicza języka Python zainstalowana na komputerze deweloperskim musi spełniać wymagania dotyczące wersji w poniższej tabeli.

    Typ środowiska obliczeniowego Wersja programu Databricks Connect Zgodna wersja języka Python
    Praca bezserwerowa 15.1 i nowsze 3.11
    Klaster 15.1 i nowsze 3.11
    Klaster 13.3 LTS do 14.3 LTS 3,10
  • Jeśli używasz funkcji definiowanych przez użytkownika (UDF), lokalna wersja podrzędna języka Python musi być zgodna z wersją podrzędną języka Python w wersji Databricks Runtime dla klastra lub instancji przetwarzania bezserwerowego. Aby znaleźć pomocniczą wersję języka Python w wersji Databricks Runtime dla klastra, zapoznaj się z sekcją środowiska systemowego w informacjach o wydaniu tej wersji Databricks Runtime. Zobacz Informacje o wersji środowiska Databricks Runtime i informacje o zgodności oraz informacje o wersji obliczeniowej bezserwerowej.

Aktywowanie środowiska wirtualnego języka Python

Usługa Databricks zdecydowanie zaleca aktywowanie środowiska wirtualnego języka Python dla każdej wersji języka Python używanej z usługą Databricks Connect. Środowiska wirtualne języka Python pomagają upewnić się, że używasz poprawnych wersji języka Python i usługi Databricks Connect razem. Aby uzyskać więcej informacji na temat tych narzędzi i sposobu ich aktywowania, zobacz venv lub Poezja.

Instalowanie klienta usługi Databricks Connect

W tej sekcji opisano sposób instalowania klienta programu Databricks Connect za pomocą oprogramowania venv lub poezji.

Uwaga

Jeśli masz już zainstalowane rozszerzenie Databricks dla programu Visual Studio Code, nie musisz wykonywać tych instrukcji konfiguracji, ponieważ rozszerzenie usługi Databricks dla programu Visual Studio Code ma już wbudowaną obsługę programu Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego. Przejdź do sekcji Debugowanie kodu przy użyciu usługi Databricks Connect dla rozszerzenia usługi Databricks dla programu Visual Studio Code.

Instalowanie klienta usługi Databricks Connect za pomocą programu venv

  1. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając uninstall polecenie . Jest to wymagane, ponieważ databricks-connect pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchom show polecenie .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając install polecenie . --upgrade Użyj opcji , aby uaktualnić dowolną istniejącą instalację klienta do określonej wersji.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić databricks-connect==X.Y.* zamiast databricks-connect=X.Y, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.

Instalowanie klienta usługi Databricks Connect za pomocą poezji

  1. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając remove polecenie . Jest to wymagane, ponieważ databricks-connect pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchom show polecenie .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając add polecenie .

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca użycie notacji "at-tilde", aby określić databricks-connect@~15.4 zamiast databricks-connect==15.4, aby upewnić się, że najnowszy pakiet jest zainstalowany. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.

Następne kroki

Po zainstalowaniu programu Databricks Connect należy skonfigurować połączenie z usługą Databricks. Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.