Delen via


Apache Spark-taakdefinities maken en beheren in Visual Studio Code

De Visual Studio (VS) Code-extensie voor Synapse ondersteunt de SPARK-taakdefinitiebewerkingen (maken, bijwerken, lezen en verwijderen) in Fabric. Nadat u een Spark-taakdefinitie hebt gemaakt, kunt u meer bibliotheken uploaden waarnaar wordt verwezen, een aanvraag indienen om de Spark-taakdefinitie uit te voeren en de uitvoeringsgeschiedenis te controleren.

Een Spark-taakdefinitie maken

Een nieuwe Spark-taakdefinitie maken:

  1. Selecteer in VS Code Explorer de optie Spark-taakdefinitie maken.

    Schermopname van VS Code Explorer, waarin wordt weergegeven waar u de optie Spark-taakdefinitie maken kunt selecteren.

  2. Voer de initiële vereiste velden in: naam, naar lakehouse verwezen en standaard lakehouse.

  3. De aanvraagprocessen en de naam van de zojuist gemaakte Spark-taakdefinitie worden weergegeven onder het hoofdknooppunt van de Spark-taakdefinitie in VS Code Explorer. Onder het naamknooppunt van de Spark-taakdefinitie ziet u drie subknooppunten:

    • Bestanden: Lijst met het hoofddefinitiebestand en andere bibliotheken waarnaar wordt verwezen. U kunt nieuwe bestanden uploaden vanuit deze lijst.
    • Lakehouse: Lijst met alle lakehouses waarnaar wordt verwezen door deze Spark-taakdefinitie. Het standaard lakehouse is gemarkeerd in de lijst en u kunt het openen via het relatieve pad Files/…, Tables/….
    • Uitvoeren: Lijst met de uitvoeringsgeschiedenis van deze Spark-taakdefinitie en de taakstatus van elke uitvoering.

Een hoofddefinitiebestand uploaden naar een bibliotheek waarnaar wordt verwezen

Als u het hoofddefinitiebestand wilt uploaden of overschrijven, selecteert u de optie Hoofdbestand toevoegen.

Schermopname van VS Code Explorer, waarin wordt weergegeven waar u de optie Hoofdbestand toevoegen kunt selecteren.

Als u het bibliotheekbestand wilt uploaden waarnaar het hoofddefinitiebestand verwijst, selecteert u de optie Lib-bestand toevoegen.

Schermopname van de knop Bibliotheek uploaden.

Nadat u een bestand hebt geüpload, kunt u het overschrijven door op de optie Bestand bijwerken te klikken en een nieuw bestand te uploaden, of u kunt het bestand verwijderen via de optie Verwijderen .

Schermopname van VS Code Explorer, waarin wordt weergegeven waar u de opties Bestand bijwerken en Verwijderen kunt vinden.

Een uitvoeringsaanvraag indienen

Een aanvraag indienen om de Spark-taakdefinitie uit te voeren vanuit VS Code:

  1. Selecteer in de opties rechts van de naam van de Spark-taakdefinitie die u wilt uitvoeren de optie Spark-taak uitvoeren.

    Schermopname van VS Code Explorer, waarin wordt weergegeven waar u Spark-taak uitvoeren kunt selecteren.

  2. Nadat u de aanvraag hebt ingediend, wordt een nieuwe Apache Spark-toepassing weergegeven in het knooppunt Runs in de lijst Explorer. U kunt de actieve taak annuleren door de optie Spark-taak annuleren te selecteren.

    Schermopname van VS Code Explorer met de nieuwe Spark-toepassing die wordt vermeld onder het knooppunt Runs en waarin wordt weergegeven waar u de optie Spark-taak annuleren kunt vinden.

Een Spark-taakdefinitie openen in de Fabric-portal

U kunt de ontwerppagina van de Spark-taakdefinitie openen in de Fabric-portal door de optie Openen in browser te selecteren.

U kunt ook Openen in browser naast een voltooide uitvoering selecteren om de detailmonitorpagina van die uitvoering te bekijken.

Schermopname van VS Code Explorer, waarin wordt weergegeven waar u de optie Openen in browser kunt selecteren.

Fouten opsporen in de broncode van de Spark-taakdefinitie (Python)

Als de Spark-taakdefinitie is gemaakt met PySpark (Python), kunt u het .py script van het hoofddefinitiebestand en het bestand waarnaar wordt verwezen, downloaden en fouten opsporen in het bronscript in VS Code.

  1. Als u de broncode wilt downloaden, selecteert u de optie Debug Spark-taakdefinitie rechts van de Spark-taakdefinitie.

    Schermopname van de knop Bron downloaden.

  2. Nadat het downloaden is voltooid, wordt de map van de broncode automatisch geopend.

  3. Selecteer de optie De auteurs vertrouwen wanneer hierom wordt gevraagd. (Deze optie wordt alleen weergegeven wanneer u de map de eerste keer opent. Als u deze optie niet selecteert, kunt u geen fouten opsporen of het bronscript uitvoeren. Zie De vertrouwensbeveiliging van Visual Studio Code Workspace Trust voor meer informatie.)

  4. Als u de broncode eerder hebt gedownload, wordt u gevraagd om te bevestigen dat u de lokale versie wilt overschrijven met de nieuwe download.

    Notitie

    In de hoofdmap van het bronscript maakt het systeem een submap met de naam conf. In deze map bevat een bestand met de naam lighter-config.json enkele systeemmetagegevens die nodig zijn voor de externe uitvoering. Breng geen wijzigingen aan.

  5. Het bestand met de naam sparkconf.py bevat een codefragment dat u moet toevoegen om het SparkConf-object in te stellen. Als u de externe foutopsporing wilt inschakelen, moet u ervoor zorgen dat het SparkConf-object juist is ingesteld. In de volgende afbeelding ziet u de oorspronkelijke versie van de broncode.

    Schermopname van een codevoorbeeld met de broncode vóór de wijziging.

    De volgende afbeelding is de bijgewerkte broncode nadat u het fragment hebt gekopieerd en geplakt.

    Schermopname van een codevoorbeeld met de broncode na de wijziging.

  6. Nadat u de broncode hebt bijgewerkt met de benodigde conf, moet u de juiste Python-interpreter kiezen. Zorg ervoor dat u degene selecteert die is geïnstalleerd in de synapse-spark-kernel conda-omgeving.

Eigenschappen van Spark-taakdefinitie bewerken

U kunt de detaileigenschappen van Spark-taakdefinities bewerken, zoals opdrachtregelargumenten.

  1. Selecteer de optie SJD-configuratie bijwerken om een settings.yml-bestand te openen. De bestaande eigenschappen vullen de inhoud van dit bestand in.

    Schermopname die laat zien waar u de optie SJD-configuratie bijwerken voor een Spark-taakdefinitie selecteert.

  2. Werk het .yml-bestand bij en sla het op.

  3. Selecteer de optie SJD-eigenschap publiceren in de rechterbovenhoek om de wijziging terug te synchroniseren naar de externe werkruimte.

    Schermopname die laat zien waar u de optie SJD-eigenschap publiceren voor een Spark-taakdefinitie selecteert.