Databricks Connect voor Python
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt gedemonstreerd hoe u snel get gestart met Databricks Connect met behulp van Python en PyCharm-.
- Zie Databricks Connect voor R voor de R-versie van dit artikel.
- Zie Databricks Connect voor Scala voor de Scala-versie van dit artikel.
Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Zelfstudie
Zie Volgende stappen als u deze zelfstudie wilt overslaan en in plaats daarvan een andere IDE wilt gebruiken.
Vereisten
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Voor uw Azure Databricks-doelwerkruimte moet Unity Catalog zijn ingeschakeld.
- U hebt PyCharm geïnstalleerd. Deze zelfstudie is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
- Uw berekening voldoet aan de installatievereisten van Databricks Connect voor Python.
- Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt get, klikt u in uw werkruimte op Compute- op de zijbalk en klikt u vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clusters
enconfiguration
in de URL.
Stap 1: Azure Databricks-verificatie configureren
In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth U2M-verificatie (user-to-machine) en een Azure Databricks-configuratieprofiel voor verificatie bij uw Azure Databricks-werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Voor informatie over het installeren van de Databricks CLI, zie Installeren of update de Databricks CLI.
Start OAuth U2M-verificatie als volgt:
Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.
Vervang in de volgende opdracht bijvoorbeeld
<workspace-url>
door de URLhttps://adb-1234567890123456.7.azuredatabricks.net
per werkruimte.databricks auth login --configure-cluster --host <workspace-url>
Tip
Zie Een verbinding met serverloze berekeningen configureren met Serverless Compute om serverloze berekeningen te gebruiken met Databricks Connect.
De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks-configuratieprofiel. Druk
Enter
om de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.Als u een list van een bestaand profiel wilt get, gebruik dan de Databricks CLI in een aparte terminal of opdrachtprompt om het commando
databricks auth profiles
uit te voeren. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdrachtdatabricks auth env --profile <profile-name>
uit.Voltooi in uw webbrowser de instructies op het scherm om u aan te melden bij uw Azure Databricks-werkruimte.
Gebruik in de list van beschikbare clusters die in uw terminal of opdrachtprompt worden weergegeven de pijl-omhoog- en pijl-omlaag-toetsen om het gewenste Azure Databricks cluster in uw werkruimte te select en druk vervolgens op
Enter
. U kunt ook een deel van de weergavenaam van het cluster typen om de list van beschikbare clusters te filteren.Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Als u meerdere profielen met dezelfde
--host
waarde hebt, moet u mogelijk de--host
en-p
opties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.
Stap 2: Het project maken
- Start PyCharm.
- Klik in het hoofdmenu op Bestand > nieuw project.
- Klik in het dialoogvenster Nieuw project op Pure Python.
- Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Python-project op te geven.
- Laat Een main.py welkomstscript maken geselecteerd.
- Klik voor het type Interpreter op Project venv.
- Vouw Python-versieuit en gebruik het mappictogram of de vervolgkeuzelijst list om het pad naar de Python-interpreter op te geven uit de eerder genoemde vereisten.
- Klik op Create.
Stap 3: Het Databricks Connect-pakket toevoegen
- Klik in het hoofdmenu van PyCharm op > weergeven>.
- Typ
databricks-connect
in het zoekvak. - Klik in de PyPI-opslagplaatslistop databricks-connect.
- In de meest recente vervolgkeuzelijst van het resultaatvenster listselect de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als voor uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, select14.3.1.
- Klik op Pakket installeren.
- Nadat het pakket is geïnstalleerd, kunt u de Python-pakkettenwindowsluiten.
Stap 4: Code toevoegen
Klik in de Project tool windowmet de rechtermuisknop op de hoofdmap van het project en klik op Nieuw > Python-bestand.
Voer het Python-bestand in
main.py
en dubbelklik erop.Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.
Als uw configuratieprofiel uit stap 1 de naam
DEFAULT
heeft, voert u de volgende code in het bestand in en slaat u het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Als uw configuratieprofiel uit stap 1 geen naam
DEFAULT
heeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding<profile-name>
door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Stap 5: De code uitvoeren
- Start het doelcluster in uw externe Azure Databricks-werkruimte.
- Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > 'main'.
- In het -hulpprogramma uitvoeren window (> hulpprogramma > Uitvoeren) in het tabbladhoofdvenster uitvoeren, worden de eerste vijf rijen van het
samples.nyctaxi.trips
weergegeven.
Stap 6: Fouten opsporen in de code
- Terwijl het cluster nog steeds wordt uitgevoerd, klikt u in de voorgaande code op de rugmarge naast
df.show(5)
om een onderbrekingspunt te set. - Klik in het hoofdmenu op Hoofdopsporing >uitvoeren.
- In de Debug tool window (Weergave > Tool Windows > Debug) klapt u op het tabblad Debugger het paneel Variabelen open om de variabelen df en spark uit te klappen. Zo kunt u door informatie bladeren over de code's
df
enspark
variabelen. - Klik in het hulpprogramma Foutopsporingwindowzijbalk op het groene pijlpictogram (Programma hervatten).
- In het consolevenster van het tabblad Foutopsporingsprogramma worden de eerste vijf rijen van het
samples.nyctaxi.trips
tabblad Weergegeven.
Volgende stappen
Zie de volgende artikelen voor meer informatie over Databricks Connect:
- Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
- Als u andere IDE's, notebookservers en de Spark-shell wilt gebruiken, raadpleegt u het volgende:
- Zie Codevoorbeelden voor Databricks Connect voor Python voor aanvullende eenvoudige codevoorbeelden.
- Als u complexere codevoorbeelden wilt bekijken, raadpleegt u de voorbeeldtoepassingen voor de Databricks Connect-opslagplaats in GitHub, met name:
- Als u Databricks Utilities wilt gebruiken met Databricks Connect, raadpleegt u Databricks Utilities met Databricks Connect voor Python.
- Als u wilt migreren van Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger, raadpleegt u Migreren naar Databricks Connect voor Python.
- Zie ook informatie over probleemoplossing en beperkingen.