Dela via


Installera Databricks Connect för Python

Kommentar

Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.

I den här artikeln beskrivs hur du installerar Databricks Connect för Python. Se Vad är Databricks Connect?. Scala-versionen av den här artikeln finns i Installera Databricks Connect för Scala.

Krav

Om du vill installera Databricks Connect för Python måste följande krav uppfyllas:

  • Om du ansluter till serverlös beräkning måste arbetsytan uppfylla kraven för serverlös beräkning.

    Kommentar

    Serverlös beräkning stöds i Databricks Connect version 15.1 och senare. Dessutom är Databricks Connect-versioner på eller lägre än Databricks Runtime-versionen på serverlösa helt kompatibla. Se Viktig information. Information om hur du kontrollerar om Databricks Connect-versionen är kompatibel med serverlös beräkning finns i Verifiera anslutningen till Databricks.

  • Om du ansluter till ett kluster måste målklustret uppfylla konfigurationskraven för klustret , vilket omfattar krav på Databricks Runtime-version.

  • Du måste ha Python 3 installerat på utvecklingsdatorn och delversionen av Python som är installerad på utvecklingsdatorn måste uppfylla versionskrav i tabellen nedan.

    Typ av beräkning Databricks Connect-version Kompatibel Python-version
    Utan server 15.1 och senare 3.11
    Kluster 15.1 och senare 3.11
    Kluster 13.3 LTS till 14.3 LTS 3,10
  • Om du använder användardefinierade funktioner (UDF: er) måste den lokala delversionen av Python matcha delversionen av Python av Databricks Runtime-versionen av klustret eller serverlös beräkning. För att hitta den mindre Python-versionen av Databricks Runtime-versionen av ditt kluster, se avsnittet systemmiljö i versionsanmärkningarna för Databricks Runtime för den versionen. Se Viktig information om versioner av Databricks Runtime och kompatibilitet och viktig information om serverlös beräkning.

Aktivera en virtuell Python-miljö

Databricks rekommenderar starkt att du har en virtuell Python-miljö aktiverad för varje Python-version som du använder med Databricks Connect. Virtuella Python-miljöer hjälper dig att se till att du använder rätt versioner av Python och Databricks Connect tillsammans. Mer information om dessa verktyg och hur du aktiverar dem finns i venv eller poesi.

Installera Databricks Connect-klienten

I det här avsnittet beskrivs hur du installerar Databricks Connect-klienten med venv eller poesi.

Kommentar

Om du redan har Databricks-tillägget för Visual Studio Code installerat behöver du inte följa de här installationsanvisningarna eftersom Databricks-tillägget för Visual Studio Code redan har inbyggt stöd för Databricks Connect för Databricks Runtime 13.3 LTS och senare. Hoppa till Felsök kod med Databricks Connect för Databricks-tillägget för Visual Studio Code.

Installera Databricks Connect-klienten med venv

  1. När den virtuella miljön är aktiverad avinstallerar du PySpark, om den redan är installerad, genom att uninstall köra kommandot . Detta krävs eftersom paketet står i databricks-connect konflikt med PySpark. Mer information finns i PySpark-installationer i konflikt. Kör kommandot för att kontrollera om PySpark redan är installerat show .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. När den virtuella miljön fortfarande är aktiverad installerar du Databricks Connect-klienten genom att install köra kommandot . Använd alternativet --upgrade för att uppgradera en befintlig klientinstallation till den angivna versionen.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Kommentar

    Databricks rekommenderar att du lägger till notationen "dot-asterisk" för att ange databricks-connect==X.Y.* i stället för databricks-connect=X.Y, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.

Installera Databricks Connect-klienten med Poetry

  1. När den virtuella miljön är aktiverad avinstallerar du PySpark, om den redan är installerad, genom att remove köra kommandot . Detta krävs eftersom paketet står i databricks-connect konflikt med PySpark. Mer information finns i PySpark-installationer i konflikt. Kör kommandot för att kontrollera om PySpark redan är installerat show .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. När den virtuella miljön fortfarande är aktiverad installerar du Databricks Connect-klienten genom att add köra kommandot .

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Kommentar

    Databricks rekommenderar att du använder notationen "at-tilde" för att ange databricks-connect@~15.4 i stället för databricks-connect==15.4, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.

Nästa steg

När du har installerat Databricks Connect måste du konfigurera en anslutning till Databricks. Se Beräkningskonfiguration för Databricks Connect.