Delen via


Databricks Connect voor Python

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt gedemonstreerd hoe u snel get gestart met Databricks Connect met behulp van Python en PyCharm-.

Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?

Zelfstudie

Zie Volgende stappen als u deze zelfstudie wilt overslaan en in plaats daarvan een andere IDE wilt gebruiken.

Vereisten

Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:

  • Voor uw Azure Databricks-doelwerkruimte moet Unity Catalog zijn ingeschakeld.
  • U hebt PyCharm geïnstalleerd. Deze zelfstudie is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
  • Uw berekening voldoet aan de installatievereisten van Databricks Connect voor Python.
  • Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt get, klikt u in uw werkruimte op Compute- op de zijbalk en klikt u vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen clusters en configuration in de URL.

Stap 1: Azure Databricks-verificatie configureren

In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth U2M-verificatie (user-to-machine) en een Azure Databricks-configuratieprofiel voor verificatie bij uw Azure Databricks-werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.

Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Voor informatie over het installeren van de Databricks CLI, zie Installeren of update de Databricks CLI.

Start OAuth U2M-verificatie als volgt:

  1. Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.

    Vervang in de volgende opdracht bijvoorbeeld <workspace-url>door de URLhttps://adb-1234567890123456.7.azuredatabricks.netper werkruimte.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks-configuratieprofiel. Druk Enter om de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.

    Als u een list van een bestaand profiel wilt get, gebruik dan de Databricks CLI in een aparte terminal of opdrachtprompt om het commando databricks auth profilesuit te voeren. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdracht databricks auth env --profile <profile-name>uit.

  3. Voltooi in uw webbrowser de instructies op het scherm om u aan te melden bij uw Azure Databricks-werkruimte.

  4. Gebruik in de list van beschikbare clusters die in uw terminal of opdrachtprompt worden weergegeven de pijl-omhoog- en pijl-omlaag-toetsen om het gewenste Azure Databricks cluster in uw werkruimte te select en druk vervolgens op Enter. U kunt ook een deel van de weergavenaam van het cluster typen om de list van beschikbare clusters te filteren.

  5. Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Als u meerdere profielen met dezelfde --host waarde hebt, moet u mogelijk de --host en -p opties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.

Stap 2: Het project maken

  1. Start PyCharm.
  2. Klik in het hoofdmenu op Bestand > nieuw project.
  3. Klik in het dialoogvenster Nieuw project op Pure Python.
  4. Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Python-project op te geven.
  5. Laat Een main.py welkomstscript maken geselecteerd.
  6. Klik voor het type Interpreter op Project venv.
  7. Vouw Python-versieuit en gebruik het mappictogram of de vervolgkeuzelijst list om het pad naar de Python-interpreter op te geven uit de eerder genoemde vereisten.
  8. Klik op Create.

Het PyCharm-project maken

Stap 3: Het Databricks Connect-pakket toevoegen

  1. Klik in het hoofdmenu van PyCharm op > weergeven>.
  2. Typ databricks-connect in het zoekvak.
  3. Klik in de PyPI-opslagplaatslistop databricks-connect.
  4. In de meest recente vervolgkeuzelijst van het resultaatvenster listselect de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als voor uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, select14.3.1.
  5. Klik op Pakket installeren.
  6. Nadat het pakket is geïnstalleerd, kunt u de Python-pakkettenwindowsluiten.

Het Databricks Connect-pakket installeren

Stap 4: Code toevoegen

  1. Klik in de Project tool windowmet de rechtermuisknop op de hoofdmap van het project en klik op Nieuw > Python-bestand.

  2. Voer het Python-bestand in main.py en dubbelklik erop.

  3. Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.

    Als uw configuratieprofiel uit stap 1 de naam DEFAULTheeft, voert u de volgende code in het bestand in en slaat u het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Als uw configuratieprofiel uit stap 1 geen naam DEFAULTheeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding <profile-name> door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Stap 5: De code uitvoeren

  1. Start het doelcluster in uw externe Azure Databricks-werkruimte.
  2. Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > 'main'.
  3. In het -hulpprogramma uitvoeren window (> hulpprogramma > Uitvoeren) in het tabbladhoofdvenster uitvoeren, worden de eerste vijf rijen van het samples.nyctaxi.trips weergegeven.

Stap 6: Fouten opsporen in de code

  1. Terwijl het cluster nog steeds wordt uitgevoerd, klikt u in de voorgaande code op de rugmarge naast df.show(5) om een onderbrekingspunt te set.
  2. Klik in het hoofdmenu op Hoofdopsporing >uitvoeren.
  3. In de Debug tool window (Weergave > Tool Windows > Debug) klapt u op het tabblad Debugger het paneel Variabelen open om de variabelen df en spark uit te klappen. Zo kunt u door informatie bladeren over de code's df en spark variabelen.
  4. Klik in het hulpprogramma Foutopsporingwindowzijbalk op het groene pijlpictogram (Programma hervatten).
  5. In het consolevenster van het tabblad Foutopsporingsprogramma worden de eerste vijf rijen van het samples.nyctaxi.trips tabblad Weergegeven.

Fouten opsporen in het PyCharm-project

Volgende stappen

Zie de volgende artikelen voor meer informatie over Databricks Connect: