Databricks Connect für Python
Hinweis
Dieser Artikel behandelt Databricks Connect für Databricks Runtime Version 13.3 LTS und höher.
In diesem Artikel werden die ersten Schritte mit Databricks Connect unter Verwendung von Python und PyCharm veranschaulicht.
- Die R-Version dieses Artikels finden Sie unter Databricks Connect für R.
- Die Scala-Version dieses Artikels finden Sie unter Databricks Connect für Scala.
Mit Databricks Connect können Sie beliebte IDEs wie PyCharm, Notebookserver und andere benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?.
Lernprogramm
Wenn Sie dieses Tutorial überspringen und stattdessen eine andere IDE verwenden möchten, lesen Sie den Abschnitt Nächste Schritte.
Anforderungen
Um dieses Tutorial abzuschließen, müssen Sie die folgenden Anforderungen erfüllen:
- In Ihrem Azure Databricks-Zielarbeitsbereich muss Unity Catalog aktiviert sein.
- Sie haben PyCharm installiert. Dieses Tutorial wurde mit PyCharm Community Edition 2023.3.5 getestet. Wenn Sie eine andere Version oder Edition von PyCharm verwenden, können die folgenden Anweisungen variieren.
- Ihr Compute erfüllt die Installationsanforderungen von Databricks Connect für Python.
- Wenn Sie klassisches Computing verwenden, benötigen Sie die Cluster-ID. Um Ihre Cluster-ID abzurufen, wählen Sie in Ihrem Arbeitsbereich auf der Randleiste Compute und dann den Namen Ihres Clusters aus. Kopieren Sie in der Adressleiste Ihres Webbrowsers die Zeichenfolge zwischen
clusters
undconfiguration
in der URL.
Schritt 1: Konfigurieren der Azure Databricks-Authentifizierung
In diesem Tutorial werden die OAuth U2M-Authentifizierung (User-to-Machine) von Azure Databricks und ein Azure Databricks-Konfigurationsprofil für die Authentifizierung an Ihrem Azure Databricks-Arbeitsbereich verwendet. Informationen zum Verwenden eines anderen Authentifizierungstyps finden Sie unter Konfigurieren von Verbindungseigenschaften.
Die Konfiguration der OAuth U2M-Authentifizierung erfordert die Verwendung der Databricks-Befehlszeilenschnittstelle (Command Line Interface, CLI). Informationen zum Installieren der Databricks-CLI finden Sie unter Installieren oder Aktualisieren der Databricks-CLI.
Initiieren Sie wie folgt die OAuth U2M-Authentifizierung:
Verwenden Sie die Databricks-CLI, um die OAuth-Tokenverwaltung lokal zu initiieren, indem Sie den folgenden Befehl für jeden Zielarbeitsbereich ausführen.
Ersetzen Sie
<workspace-url>
im folgenden Befehl durch Ihre arbeitsbereichsspezifische Azure Databricks-URL, z. B.https://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Tipp
Informationen zum Verwenden von serverlosen Berechnungen mit Databricks Connect finden Sie unter Konfigurieren einer Verbindung mit serverlosem Compute.
Die Databricks-CLI fordert Sie auf, die von Ihnen eingegebenen Informationen als Azure Databricks-Konfigurationsprofil zu speichern. Drücken Sie die EINGABETASTE (
Enter
), um den vorgeschlagenen Profilnamen zu übernehmen, oder geben Sie den Namen eines neuen oder bereits vorhandenen Profils ein. Ist bereits ein Profil mit dem gleichen Namen vorhanden, wird es mit den von Ihnen eingegebenen Informationen überschrieben. Sie können Profile verwenden, um Ihren Authentifizierungskontext schnell über mehrere Arbeitsbereiche hinweg zu wechseln.Um eine Liste vorhandener Profile abzurufen, führen Sie in der Databricks-CLI den Befehl
databricks auth profiles
in einem separaten Terminal oder in einer separaten Eingabeaufforderung aus. Um die vorhandenen Einstellungen eines bestimmten Profils anzuzeigen, können Sie den Befehldatabricks auth env --profile <profile-name>
ausführen.Führen Sie in Ihrem Webbrowser die Anweisungen auf dem Bildschirm aus, um sich bei Ihrem Azure Databricks-Arbeitsbereich anzumelden.
Verwenden Sie in der Liste der verfügbaren Cluster, die im Terminal oder in der Eingabeaufforderung angezeigt wird, die NACH-OBEN- und NACH-UNTEN-TASTEN, um den Azure Databricks-Zielcluster in Ihrem Arbeitsbereich auszuwählen, und drücken Sie dann die EINGABETASTE (
Enter
). Sie können auch einen beliebigen Teil des Anzeigenamens des Clusters eingeben, um die Liste der verfügbaren Cluster zu filtern.Führen Sie einen der folgenden Befehle aus, um den aktuellen OAuth-Tokenwert und den Zeitstempel für den bevorstehenden Ablauf des Tokens eines Profils anzuzeigen:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Wenn Sie über mehrere Profile mit dem gleichen
--host
-Wert verfügen, müssen Sie möglicherweise die Optionen--host
und-p
angeben, damit die Databricks-CLI die richtigen übereinstimmenden OAuth-Tokeninformationen findet.
Schritt 2: Erstellen des Projekts
- Starten Sie PyCharm.
- Klicken Sie im Hauptmenü auf Datei > Neues Projekt.
- Klicken Sie im Dialogfeld Neues Projekt auf Pure Python.
- Klicken Sie unter Speicherort auf das Ordnersymbol, und folgen Sie den Anweisungen auf dem Bildschirm, um den Pfad zu Ihrem neuen Python-Projekt anzugeben.
- Lassen Sie main.py Willkommensskript erstellen ausgewählt.
- Klicken Sie für den Dolmetschertyp auf Project venv.
- Erweitern Sie die Python-Version, und verwenden Sie das Ordnersymbol oder die Dropdownliste, um den Pfad zum Python-Dolmetscher aus den vorherigen Anforderungen anzugeben.
- Klicken Sie auf Erstellen.
Schritt 3: Hinzufügen des Databricks Connect-Pakets
- Klicken Sie im Hauptmenü von PyCharm auf Ansicht > Toolfenster > Python-Pakete.
- Geben Sie im Suchfeld
databricks-connect
ein. - Klicken Sie in der Liste PyPI-Repository auf databricks-connect.
- Wählen Sie in Dropdownliste Neueste des Ergebnisbereichs die Version aus, die der Databricks Runtime-Version Ihres Clusters entspricht. Wenn in Ihrem Cluster also beispielsweise Databricks Runtime 14.3 installiert ist, wählen Sie 14.3.1 aus.
- Klicken Sie auf Paket installieren.
- Nach der Installation des Pakets können Sie das Fenster Python-Pakete schließen.
Schritt 4: Hinzufügen von Code
Klicken Sie im Toolfenster Projekt mit der rechten Maustaste auf den Stammordner des Projekts, und klicken Sie anschließend auf Neu > Python-Datei.
Geben Sie
main.py
ein, und doppelklicken Sie auf Python-Datei.Geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei abhängig vom Namen Ihres Konfigurationsprofils.
Wenn Ihr Konfigurationsprofil aus Schritt 1
DEFAULT
lautet, geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Wenn Ihr Konfigurationsprofil aus Schritt 1 nicht
DEFAULT
lautet, geben Sie stattdessen den folgenden Code in die Datei ein. Ersetzen Sie den Platzhalter<profile-name>
durch den Namen Ihres Konfigurationsprofils aus Schritt 1 und speichern Sie dann die Datei:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Schritt 5: Ausführen des Codes
- Starten Sie den Zielcluster in Ihrem Azure Databricks-Remotearbeitsbereich.
- Klicken Sie nach dem Start des Clusters im Hauptmenü auf Ausführen > Main ausführen.
- Im Toolfenster Ausführen (Ansicht > Toolfenster > Ausführen) werden auf der Registerkarte Ausführen im Bereich main die ersten 5 Zeilen von
samples.nyctaxi.trips
angezeigt.
Schritt 6: Debuggen des Codes
- Wählen Sie, während der Cluster noch ausgeführt wird, im vorherigen Code den Bundsteg neben
df.show(5)
aus, um einen Breakpoint festzulegen. - Wählen Sie im Hauptmenü Ausführen > Main Debuggen aus.
- Erweitern Sie im Toolfenster Debuggen (Ansicht > Toolfenster > Debuggen) im Bereich Variablen der Registerkarte Debugger die Variablenknoten df und spark, um sich Informationen zu den Variablen
df
undspark
des Codes anzusehen. - Klicken Sie auf der Randleiste des Toolfensters Debuggen auf den grünen Pfeil (Programm fortsetzen).
- Im Bereich Konsole der Registerkarte Debugger werden die ersten fünf Zeilen von
samples.nyctaxi.trips
angezeigt.
Nächste Schritte
Weitere Informationen zu Databricks Connect finden Sie z. B. in den folgenden Artikeln:
- Informationen zum Verwenden eines anderen Authentifizierungstyps finden Sie unter Konfigurieren von Verbindungseigenschaften.
- Weitere Informationen zum Verwenden anderer IDEs, Notebookserver und der Spark-Shell finden Sie unter den folgenden Themen:
- Weitere einfache Codebeispiele finden Sie unter Codebeispiele für Databricks Connect für Python.
- Informationen zum Anzeigen komplexerer Codebeispiele finden Sie in den Beispielanwendungen für das Databricks Connect-Repository in GitHub, insbesondere:
- Weitere Informationen zur Verwendung von Databricks-Hilfsprogrammen mit Databricks Connect finden Sie unter Databricks-Hilfsprogramme mit Databricks Connect für Python.
- Weitere Informationen zum Migrieren von Databricks Connect für Databricks Runtime bis Version 12.2 LTS an Databricks Connect für Databricks Runtime ab Version 13.3 LTS finden Sie unter Migrieren an Databricks Connect für Python.
- Sehen Sie sich auch die Informationen zur Problembehandlung und die Einschränkungen an.