Delen via


Databricks Connect voor Python installeren

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Connect voor Python installeert. Zie Wat is Databricks Connect? Zie Databricks Connect installeren voor Scala voor de Scala-versie van dit artikel.

Vereisten

Als u Databricks Connect voor Python wilt installeren, moet aan de volgende vereisten worden voldaan:

Een virtuele Python-omgeving activeren

Databricks raadt ten zeerste aan dat u een virtuele Python-omgeving hebt geactiveerd voor elke Python-versie die u gebruikt met Databricks Connect. Virtuele Python-omgevingen helpen ervoor te zorgen dat u de juiste versies van Python en Databricks Connect samen gebruikt. Zie venv of Poëzie voor meer informatie over deze hulpmiddelen en hoe u ze activeert.

De Databricks Connect-client installeren

In deze sectie wordt beschreven hoe u de Databricks Connect-client installeert met venv of Poetry.

Notitie

Als u de Databricks-extensie voor Visual Studio Code al hebt geïnstalleerd, hoeft u deze installatie-instructies niet te volgen, omdat de Databricks-extensie voor Visual Studio Code al ingebouwde ondersteuning heeft voor Databricks Connect voor Databricks Runtime 13.3 LTS en hoger. Ga verder met foutopsporingscode met databricks Connect voor de Databricks-extensie voor Visual Studio Code.

De Databricks Connect-client installeren met venv

  1. Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te uninstall voeren. Dit is vereist omdat het databricks-connect pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer de show opdracht uit om te controleren of PySpark al is geïnstalleerd.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te install voeren. Gebruik de --upgrade optie om een bestaande clientinstallatie bij te werken naar de opgegeven versie.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Notitie

    Databricks raadt u aan de notatie 'dot-asterisk' toe te voegen om in plaats van databricks-connect==X.Y.*, op te geven databricks-connect=X.Y dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.

De Databricks Connect-client installeren met Poëzie

  1. Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te remove voeren. Dit is vereist omdat het databricks-connect pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer de show opdracht uit om te controleren of PySpark al is geïnstalleerd.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te add voeren.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Notitie

    Databricks raadt u aan om de at-tilde-notatie te gebruiken om in plaats van databricks-connect@~15.4, op te geven databricks-connect==15.4 dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.

Volgende stappen

Nadat u Databricks Connect hebt geïnstalleerd, moet u een verbinding met Databricks configureren. Zie de compute-configuratie voor Databricks Connect.