Databricks Connect voor Python installeren
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt beschreven hoe u Databricks Connect voor Python installeert. Zie Wat is Databricks Connect? Zie Databricks Connect installeren voor Scala voor de Scala-versie van dit artikel.
Vereisten
Als u Databricks Connect voor Python wilt installeren, moet aan de volgende vereisten worden voldaan:
Als u verbinding maakt met serverloze berekeningen, moet uw werkruimte voldoen aan de vereisten voor serverloze berekeningen.
Notitie
Serverloze berekening wordt ondersteund in Databricks Connect versie 15.1 en hoger. Bovendien zijn databricks Connect-versies op of lager dan de Databricks Runtime-release op serverloos volledig compatibel. Zie opmerkingen bij de release. Zie De verbinding met Databricks Connect valideren om te controleren of de databricks-versie compatibel is met serverloze berekeningen.
Als u verbinding maakt met een cluster, moet uw doelcluster voldoen aan de clusterconfiguratievereisten , waaronder versievereisten voor Databricks Runtime.
Python 3 moet zijn geïnstalleerd op uw ontwikkelcomputer en de secundaire versie van Python die op uw ontwikkelcomputer is geïnstalleerd, moet voldoen aan de versievereisten in de onderstaande tabel.
Rekentype Databricks Connect-versie Compatibele Python-versie Serverloos 15.1 en hoger 3.11 Cluster 15.1 en hoger 3.11 Cluster 13.3 LTS tot 14.3 LTS 3.10 Als u door de gebruiker gedefinieerde functies (UDF's) gebruikt, moet de lokale secundaire versie van Python overeenkomen met de secundaire versie van Python van de Databricks Runtime-versie van het cluster of serverloze compute. Als u de secundaire Python-versie van de Databricks Runtime-versie van uw cluster wilt vinden, raadpleegt u de sectie Systeemomgeving van de releaseopmerkingen van Databricks Runtime voor die versie. Zie de releaseversies van Databricks Runtime en de releaseopmerkingen voor serverlozeberekeningen.
Een virtuele Python-omgeving activeren
Databricks raadt ten zeerste aan dat u een virtuele Python-omgeving hebt geactiveerd voor elke Python-versie die u gebruikt met Databricks Connect. Virtuele Python-omgevingen helpen ervoor te zorgen dat u de juiste versies van Python en Databricks Connect samen gebruikt. Zie venv of Poëzie voor meer informatie over deze hulpmiddelen en hoe u ze activeert.
De Databricks Connect-client installeren
In deze sectie wordt beschreven hoe u de Databricks Connect-client installeert met venv of Poetry.
Notitie
Als u de Databricks-extensie voor Visual Studio Code al hebt geïnstalleerd, hoeft u deze installatie-instructies niet te volgen, omdat de Databricks-extensie voor Visual Studio Code al ingebouwde ondersteuning heeft voor Databricks Connect voor Databricks Runtime 13.3 LTS en hoger. Ga verder met foutopsporingscode met databricks Connect voor de Databricks-extensie voor Visual Studio Code.
De Databricks Connect-client installeren met venv
Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te
uninstall
voeren. Dit is vereist omdat hetdatabricks-connect
pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer deshow
opdracht uit om te controleren of PySpark al is geïnstalleerd.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te
install
voeren. Gebruik de--upgrade
optie om een bestaande clientinstallatie bij te werken naar de opgegeven versie.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Notitie
Databricks raadt u aan de notatie 'dot-asterisk' toe te voegen om in plaats van
databricks-connect==X.Y.*
, op te gevendatabricks-connect=X.Y
dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.
De Databricks Connect-client installeren met Poëzie
Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te
remove
voeren. Dit is vereist omdat hetdatabricks-connect
pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer deshow
opdracht uit om te controleren of PySpark al is geïnstalleerd.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te
add
voeren.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Notitie
Databricks raadt u aan om de at-tilde-notatie te gebruiken om in plaats van
databricks-connect@~15.4
, op te gevendatabricks-connect==15.4
dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.
Volgende stappen
Nadat u Databricks Connect hebt geïnstalleerd, moet u een verbinding met Databricks configureren. Zie de compute-configuratie voor Databricks Connect.