Installieren von Databricks Connect für Python
Hinweis
Dieser Artikel behandelt Databricks Connect für Databricks Runtime Version 13.3 LTS und höher.
In diesem Artikel wird beschrieben, wie Sie Databricks Connect für Python installieren. Weitere Informationen finden Sie unter Was ist Databricks Connect?. Die Scala-Version dieses Artikels finden Sie unter Installieren von Databricks Connect für Scala.
Anforderungen
Um Databricks Connect für Python zu installieren, müssen die folgenden Anforderungen erfüllt sein:
Wenn Sie eine Verbindung mit serverlosem Computeherstellen, muss Ihr Arbeitsbereich die Anforderungen für den serverlosen Compute erfüllen.
Hinweis
Serverloses Computing wird in Databricks Connect, Version 15.1 und höher, unterstützt. Darüber hinaus sind Databricks Connect-Versionen bei oder niedriger als die Databricks Runtime-Version auf serverlosen Servern vollständig kompatibel. (Siehe Versionshinweise). Informationen zum Überprüfen, ob die Databricks Connect-Version mit serverlosem Computing kompatibel ist, finden Sie unter Validieren Sie die Verbindung zu Databricks.
Wenn Sie eine Verbindung mit einem Clusterherstellen, muss Ihr Zielcluster die Anforderungen an die Clusterkonfiguration erfüllen, die Datenbricks Runtime-Versionsanforderungen enthält.
Sie müssen Python 3 auf Ihrem Entwicklungscomputer installiert haben, und die Nebenversion von Python auf Ihrem Entwicklungscomputer muss die Versionsanforderungen in der nachstehenden Tabelle erfüllen.
Computetyp Databricks Connect-Version Kompatible Python-Version Serverlos 15.1 und höher 3.11 Cluster 15.1 und höher 3.11 Cluster 13.3 LTS bis 14.3 LTS 3.10 Wenn Sie PySpark UDFs verwenden möchten, muss die installierte Nebenversion Ihres Entwicklungscomputers mit der Nebenversion von Python übereinstimmen, die in der Databricks Runtime enthalten ist, die auf dem Cluster oder serverlosen Compute installiert ist. Informationen zur Python-Nebenversion Ihres Clusters finden Sie im Abschnitt Systemumgebung der Databricks Runtime-Versionshinweise zu Ihrem Cluster oder serverlosen Compute. Siehe Versionshinweise zu Databricks Runtime- und Kompatibilität und den Serverlosen Compute-Versionshinweisen.
Aktivieren einer virtuellen Python-Umgebung
Databricks empfiehlt dringend, eine virtuelle Python-Umgebung für jede Python-Version zu aktivieren, die Sie mit Databricks Connect verwenden. Mithilfe virtueller Python-Umgebungen kann sichergestellt werden, dass Sie die richtigen Versionen von Python und Databricks Connect zusammen verwenden. Weitere Informationen zu diesen Tools und zur Aktivierung finden Sie unter venv oder Poetry.
Installieren Sie den Databricks Connect-Client.
In diesem Abschnitt wird beschrieben, wie Sie den Databricks Connect-Client mit venv oder Poetry installieren.
Hinweis
Wenn Sie die Databricks-Erweiterung für Visual Studio Code bereits installiert haben, müssen Sie diese Setupanweisungen nicht befolgen, da die Databricks-Erweiterung für Visual Studio Code bereits integrierte Unterstützung für Databricks Connect für Databricks Runtime 13.3 LTS und höher verfügt. Gehen Sie zu Debugcode mithilfe von Databricks Connect für die Databricks-Erweiterung für Visual Studio Code.
Installieren des Databricks Connect-Clients mit venv
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark, falls es bereits installiert ist, indem Sie den
uninstall
-Befehl ausführen. Dieser Schritt ist erforderlich, da dasdatabricks-connect
-Paket mit PySpark in Konflikt steht. Weitere Informationen finden Sie unter In Konflikt stehende PySpark-Installationen. Um zu überprüfen, ob PySpark bereits installiert ist, führen Sie denshow
-Befehl aus.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie den Databricks Connect-Client, indem Sie den
install
-Befehl ausführen. Verwenden Sie die--upgrade
-Option, um für alle vorhandenen Clientinstallationen ein Upgrade auf die angegebene Version durchzuführen.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Hinweis
Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um
databricks-connect==X.Y.*
anstelle vondatabricks-connect=X.Y
anzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.
Installieren des Databricks Connect-Clients mit Poetry
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark, falls es bereits installiert ist, indem Sie den
remove
-Befehl ausführen. Dieser Schritt ist erforderlich, da dasdatabricks-connect
-Paket mit PySpark in Konflikt steht. Weitere Informationen finden Sie unter In Konflikt stehende PySpark-Installationen. Um zu überprüfen, ob PySpark bereits installiert ist, führen Sie denshow
-Befehl aus.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie den Databricks Connect-Client, indem Sie den
add
-Befehl ausführen.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Hinweis
Databricks empfiehlt, die Notation „@-Tilde“ zu verwenden, um
databricks-connect@~15.4
anstelle vondatabricks-connect==15.4
anzugeben und sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.
Nächste Schritte
Nachdem Sie Databricks Connect installiert haben, müssen Sie eine Verbindung mit Databricks konfigurieren. Siehe Computekonfiguration für Databricks Connect.