Databricks Connect voor Python
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt gedemonstreerd hoe u snel aan de slag kunt met Databricks Connect met behulp van Python en PyCharm.
- Zie Databricks Connect voor R voor de R-versie van dit artikel.
- Zie Databricks Connect voor Scala voor de Scala-versie van dit artikel.
Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Zelfstudie
Zie Volgende stappen als u deze zelfstudie wilt overslaan en in plaats daarvan een andere IDE wilt gebruiken.
Vereisten
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Voor uw Azure Databricks-doelwerkruimte moet Unity Catalog zijn ingeschakeld.
- U hebt PyCharm geïnstalleerd. Deze zelfstudie is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
- Uw berekening voldoet aan de installatievereisten van Databricks Connect voor Python.
- Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clusters
enconfiguration
in de URL.
Stap 1: Azure Databricks-verificatie configureren
In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth U2M-verificatie (user-to-machine) en een Azure Databricks-configuratieprofiel voor verificatie bij uw Azure Databricks-werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Zie De Databricks CLI installeren of bijwerken voor informatie over het installeren van de Databricks CLI.
Start OAuth U2M-verificatie als volgt:
Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.
Vervang in de volgende opdracht bijvoorbeeld
https://adb-1234567890123456.7.azuredatabricks.net
door<workspace-url>
de URL van uw Azure Databricks per werkruimte.databricks auth login --configure-cluster --host <workspace-url>
Tip
Zie Een verbinding met serverloze berekeningen configureren met Serverless Compute om serverloze berekeningen te gebruiken met Databricks Connect.
De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks-configuratieprofiel. Druk
Enter
om de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.Als u een lijst met bestaande profielen wilt ophalen, gebruikt u in een afzonderlijke terminal of opdrachtprompt de Databricks CLI om de opdracht
databricks auth profiles
uit te voeren. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdrachtdatabricks auth env --profile <profile-name>
uit.Voltooi in uw webbrowser de instructies op het scherm om u aan te melden bij uw Azure Databricks-werkruimte.
Gebruik in de lijst met beschikbare clusters die worden weergegeven in uw terminal of opdrachtprompt de pijl-omhoog en pijl-omlaag om het Azure Databricks-doelcluster in uw werkruimte te selecteren en druk
Enter
op . U kunt ook een deel van de weergavenaam van het cluster typen om de lijst met beschikbare clusters te filteren.Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Als u meerdere profielen met dezelfde
--host
waarde hebt, moet u mogelijk de--host
en-p
opties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.
Stap 2: Het project maken
- Start PyCharm.
- Klik in het hoofdmenu op Bestand > nieuw project.
- Klik in het dialoogvenster Nieuw project op Pure Python.
- Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Python-project op te geven.
- Laat Een main.py welkomstscript maken geselecteerd.
- Klik voor het type Interpreter op Project venv.
- Vouw de Python-versie uit en gebruik het mappictogram of de vervolgkeuzelijst om het pad naar de Python-interpreter op te geven uit de voorgaande vereisten.
- Klik op Create.
Stap 3: Het Databricks Connect-pakket toevoegen
- Klik in het hoofdmenu van PyCharm op Windows > Python-pakketten weergeven>.
- Typ
databricks-connect
in het zoekvak. - Klik in de lijst met PyPI-opslagplaatsen op Databricks-connect.
- Selecteer in de meest recente vervolgkeuzelijst van het resultaatvenster de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als in uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, selecteert u 14.3.1.
- Klik op Pakket installeren.
- Nadat het pakket is geïnstalleerd, kunt u het venster Python-pakketten sluiten.
Stap 4: Code toevoegen
Klik in het venster Project met de rechtermuisknop op de hoofdmap van het project en klik op Nieuw > Python-bestand.
Voer het Python-bestand in
main.py
en dubbelklik erop.Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.
Als uw configuratieprofiel uit stap 1 de naam
DEFAULT
heeft, voert u de volgende code in het bestand in en slaat u het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Als uw configuratieprofiel uit stap 1 geen naam
DEFAULT
heeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding<profile-name>
door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Stap 5: De code uitvoeren
- Start het doelcluster in uw externe Azure Databricks-werkruimte.
- Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > 'main'.
- In het venster Hulpprogramma Uitvoeren (Windows Uitvoeren weergeven > >), in het hoofdvenster van het tabblad Uitvoeren, worden de eerste 5 rijen van het
samples.nyctaxi.trips
venster weergegeven.
Stap 6: Fouten opsporen in de code
- Terwijl het cluster nog steeds wordt uitgevoerd, klikt u in de voorgaande code op de rugmarge naast om een onderbrekingspunt in te
df.show(5)
stellen. - Klik in het hoofdmenu op Hoofdopsporing >uitvoeren.
- Vouw in het venster Foutopsporingsprogramma (Windows > > Foutopsporing weergeven) in het deelvenster Variabelen van het foutopsporingsprogramma de df- en Spark-variabeleknooppunten uit om door informatie over de code
df
enspark
variabelen te bladeren. - Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
- In het consolevenster van het tabblad Foutopsporingsprogramma worden de eerste vijf rijen van het
samples.nyctaxi.trips
tabblad Weergegeven.
Volgende stappen
Zie de volgende artikelen voor meer informatie over Databricks Connect:
- Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
- Als u andere IDE's, notebookservers en de Spark-shell wilt gebruiken, raadpleegt u het volgende:
- Zie Codevoorbeelden voor Databricks Connect voor Python voor aanvullende eenvoudige codevoorbeelden.
- Als u complexere codevoorbeelden wilt bekijken, raadpleegt u de voorbeeldtoepassingen voor de Databricks Connect-opslagplaats in GitHub, met name:
- Als u Databricks Utilities wilt gebruiken met Databricks Connect, raadpleegt u Databricks Utilities met Databricks Connect voor Python.
- Als u wilt migreren van Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger, raadpleegt u Migreren naar Databricks Connect voor Python.
- Zie ook informatie over probleemoplossing en beperkingen.