Databricks-taken configureren en bewerken
U kunt een taak maken en uitvoeren met behulp van de gebruikersinterface voor taken of hulpprogramma's voor ontwikkelaars, zoals de Databricks CLI of de REST API. Met behulp van de gebruikersinterface of API kunt u een mislukte of geannuleerde taak herstellen en opnieuw uitvoeren. In dit artikel wordt beschreven hoe u taken maakt, configureert en bewerkt met behulp van de gebruikersinterface van de -werkstromen werkruimte. Zie het volgende voor meer informatie over andere hulpprogramma's:
- Zie Wat is de Databricks CLI?voor meer informatie over het gebruik van de Databricks CLI om taken te maken en uit te voeren.
- Zie Taken in de REST API-verwijzing voor meer informatie over het gebruik van de Taken-API om taken te maken en uit te voeren.
- Als u liever een IaC-benadering (infrastructure-as-code) gebruikt voor het configureren van taken, kunt u Databricks Asset Bundles (DABs) gebruiken. Zie Databricks Asset Bundles voor meer informatie over het gebruik van DABs om uw taken te configureren en te organiseren.
- Zie Geplande notebooktaken maken en beheren voor meer informatie over het rechtstreeks uitvoeren en plannen van taken in een Databricks-notebook.
Tip
Als u een taak als YAML wilt weergeven, klikt u links van Run now voor de taak op het menu Voor de taak en klikt u vervolgens op Overschakelen naar codeversie (YAML).
Wat is de minimale configuratie die nodig is voor een taak?
Voor alle taken in Azure Databricks is het volgende vereist:
- Een taak die logica bevat die moet worden uitgevoerd, zoals een Databricks-notebook. Zie Databricks-taken configureren en bewerken
- Een rekenresource om de logica uit te voeren. De rekenresource kan serverloze rekenkracht, klassieke taken of rekenkracht voor alle doeleinden zijn. Zie Rekenproces configureren voor taken.
- Een opgegeven planning voor wanneer de taak moet worden uitgevoerd. U kunt eventueel een planning weglaten en de taak handmatig activeren.
- Een unieke naam.
Een nieuwe taak maken
In deze sectie worden de stappen beschreven voor het aanmaken van een nieuwe taak met een notebookopdracht en een planning met de gebruikersinterface van de werkruimte.
Taken bevatten een of meer taken. U maakt een nieuwe taak door de eerste taak voor die taak te configureren.
Notitie
Elk taaktype heeft dynamische configuratieopties in de gebruikersinterface van de werkruimte. Zie Databricks-taken configureren en bewerken.
- Klik op
Werkstromen in de zijbalk en klik op .
- Voer een taaknaam in.
- Selecteer een notitieblok voor het veld Pad.
- Klik op Taak maken.
Als uw werkruimte niet is ingeschakeld voor serverloze berekeningen voor taken, moet u een optie Compute selecteren. Databricks raadt aan om taken altijd te gebruiken bij het configureren van taken.
Er wordt een nieuwe taak weergegeven in de lijst met werkruimtetaken met de standaardnaam New Job <date> <time>
.
U kunt meer taken binnen dezelfde taak toevoegen, indien nodig voor uw werkstroom.
Een taak plannen
U kunt bepalen wanneer uw taak wordt uitgevoerd. Deze wordt standaard alleen uitgevoerd wanneer u deze handmatig start, maar u kunt het ook zo configureren dat deze automatisch wordt uitgevoerd. U kunt een trigger maken om een taak volgens een planning uit te voeren of op basis van een gebeurtenis.
De stroom van taken binnen de taak beheren
Wanneer u meerdere taken in taken configureert, kunt u gespecialiseerde taken gebruiken om te bepalen hoe de taken worden uitgevoerd. Zie De stroom van taken in een Databricks-taak beheren.
Selecteer een taak die u wilt bewerken in de werkruimte
Ga als volgt te werk om een bestaande taak te bewerken met de gebruikersinterface van de werkruimte:
- Klik op
Werkstromen in de zijbalk.
- Klik in de kolom Naam op de taaknaam.
Gebruik de gebruikersinterface voor taken om het volgende te doen:
- Taakinstellingen bewerken
- De naam van een taak wijzigen, klonen of verwijderen
- Nieuwe taken toevoegen aan een bestaande taak
- Taakinstellingen bewerken
Notitie
U kunt ook de JSON-definities weergeven voor gebruik met REST API ophalen, maken en eindpunten opnieuw instellen.
Taakinstellingen bewerken
Het zijpaneel bevat de taakgegevens. U kunt de taaktrigger, berekeningsconfiguratie, meldingen, het maximum aantal gelijktijdige uitvoeringen wijzigen, drempelwaarden voor duur configureren en tags toevoegen of wijzigen. U kunt ook taakmachtigingen bewerken als toegangsbeheer voor taken is ingeschakeld.
Parameters toevoegen voor alle taaktaken
Parameters die op taakniveau zijn geconfigureerd, worden doorgegeven aan de taken van de taak die sleutel-waardeparameters accepteren, inclusief Python-wielbestanden die zijn geconfigureerd voor het accepteren van trefwoordargumenten. Zie Taken parameteriseren.
Tags toevoegen aan een taak
Als u labels of sleutelwaardekenmerken aan uw taak wilt toevoegen, kunt u tags toevoegen wanneer u de taak bewerkt. U kunt tags gebruiken om banen te filteren in de banenlijst. U kunt bijvoorbeeld een department
tag gebruiken om alle taken te filteren die deel uitmaken van een specifieke afdeling.
Notitie
Omdat jobtags niet zijn ontworpen voor het opslaan van gevoelige informatie, zoals persoonlijk identificeerbare informatie of wachtwoorden, raadt Databricks aan om alleen tags te gebruiken voor niet-gevoelige waarden.
Tags worden ook doorgegeven aan taakclusters die zijn gemaakt wanneer een taak wordt uitgevoerd, zodat u tags kunt gebruiken met uw bestaande clusterbewaking.
Klik op + Tag in het zijpaneel Taakdetails om tags toe te voegen of te bewerken. U kunt de tag toevoegen als label of sleutel-waardepaar. Als u een label wilt toevoegen, voert u het label in het sleutelveld in en laat u het veld Waarde leeg.
Een budgetbeleid toevoegen aan een taak
Belangrijk
Deze functie bevindt zich in openbare preview-versie.
Als uw werkruimte budgetbeleid gebruikt om serverloos gebruik toe te passen, kunt u het budgetbeleid van uw taken selecteren met behulp van de instelling Budgetbeleid in het taakdetails zijpaneel. Zie Attribueren van serverloos gebruik met budgetbeleidsregels.
De naam van een taak wijzigen, klonen of verwijderen
Als u de naam van een taak wilt wijzigen, gaat u naar de gebruikersinterface van taken en klikt u op de taaknaam.
U kunt snel een nieuwe taak maken door een bestaande taak te klonen. Als u een taak kloont, wordt een identieke kopie van de taak gemaakt, met uitzondering van de taak-id. Ga als volgt te werk om een taak te klonen:
- Ga naar de gebruikersinterface voor taken voor de taak.
- Klik naast
de knop Nu uitvoeren .
- Selecteer Kloontaak in de vervolgkeuzelijst.
- Voer een naam in voor de gekloonde taak.
- Klik op Klonen.
Een taak verwijderen
Als u een taak wilt verwijderen, gaat u naar de taakpagina, klikt u op naast de taaknaam en selecteert u Taak verwijderen in het vervolgkeuzemenu.
Git gebruiken met taken
Als uw taak taken bevat die ondersteuning bieden voor het gebruik van een externe Git-provider, bevat de gebruikersinterface voor taken een Git-veld en de optie om Git-instellingen toe te voegen of te bewerken.
U kunt de volgende taaktypen configureren voor het gebruik van een externe Git-opslagplaats:
- Notebooks
- Python-scripts
- SQL-bestanden
- dbt
Alle taken in een taak moeten verwijzen naar dezelfde doorvoering in de externe opslagplaats. U moet slechts een van de volgende opgeven voor een taak die gebruikmaakt van een externe opslagplaats:
-
branch: De naam van de vertakking, bijvoorbeeld
main
. -
tag: de naam van de tag, bijvoorbeeld
release-1.0.0
. -
commit: De hash van een specifieke doorvoer, bijvoorbeeld
e0056d01
.
Wanneer een taakuitvoering begint, maakt Databricks een momentopname van de externe opslagplaats om ervoor te zorgen dat de hele taak wordt uitgevoerd op dezelfde versie van code.
Wanneer u de uitvoeringsgeschiedenis van een taak bekijkt die code uitvoert die is opgeslagen in een externe Git-opslagplaats, bevat het deelvenster Taakuitvoeringsgegevens Git-details, inclusief de doorvoer-SHA die is gekoppeld aan de uitvoering. Zie De uitvoeringsgeschiedenis van de taak weergeven.
Notitie
Taken die zijn geconfigureerd voor het gebruik van een externe Git-opslagplaats, kunnen niet naar werkruimtebestanden schrijven. Deze taken moeten tijdelijke gegevens schrijven naar tijdelijke opslag die is gekoppeld aan het stuurprogrammaknooppunt van de rekeneenheid die is geconfigureerd om de taak uit te voeren, en permanente gegevens naar een volume of tabel.
Databricks raadt aan om alleen te verwijzen naar werkruimtepaden in Git-mappen voor snelle iteratie en testen tijdens de ontwikkeling. Wanneer u taken verplaatst naar fasering en productie, raadt Databricks u aan deze taken te configureren om te verwijzen naar een externe Git-opslagplaats. Zie de volgende sectie voor meer informatie over het gebruik van een externe Git-opslagplaats met een Databricks-taak.
Een Git-provider configureren
De gebruikersinterface voor taken heeft een dialoogvenster voor het configureren van een externe Git-opslagplaats. Dit dialoogvenster is toegankelijk via het deelvenster Taakgegevens onder de Git-kop of in een taak die is geconfigureerd voor het gebruik van een Git-provider.
De opties die worden weergegeven voor toegang tot het dialoogvenster variƫren afhankelijk van het taaktype en of er al dan niet een Git-verwijzing is geconfigureerd voor de taak. Knoppen voor het starten van het dialoogvenster zijn Git-instellingen toevoegen, Bewerken of Een Git-verwijzing toevoegen.
Voer in het dialoogvenster Git-informatie (alleen Git gelabeld als toegang via het deelvenster Taakdetails) de volgende gegevens in:
- De URL van de Git-opslagplaats.
- Selecteer uw Git-provider in de vervolgkeuzelijst.
- Voer in het veld Git-verwijzing de id in voor een vertakking, tag of doorvoer die overeenkomt met de versie van de broncode die u wilt uitvoeren.
- Selecteer vertakking, tagof commit uit de vervolgkeuzelijst.
Notitie
In het dialoogvenster wordt u mogelijk gevraagd om het volgende te doen: Git-referenties voor dit account ontbreken. Referenties toevoegen. U moet een externe Git-opslagplaats configureren voordat u deze als referentie gebruikt. Zie Het instellen van Databricks Git-mappen (Repos).
Drempelwaarden configureren voor duur van taakuitvoering of metrische gegevens over streamingachterstand
Belangrijk
Streaming waarneembaarheid voor Databricks-taken bevindt zich in openbare preview-.
U kunt optionele drempelwaarden configureren voor de duur van de taakuitvoering of metrische gegevens over de streamingachterstand. Als u metrische drempels voor duur of streaming wilt configureren, klikt u op duur- en streamingachterstandsdrempels in het deelvenster Taakdetails.
Als u drempelwaarden voor taakduur wilt configureren, inclusief verwachte en maximale voltooiingstijden voor de taak, selecteert u Uitvoeringsduur in de vervolgkeuzelijst Metrische. Voer een duur in het veld Waarschuwing in om de verwachte voltooiingstijd van de taak te configureren. Als de taak deze drempelwaarde overschrijdt, wordt een gebeurtenis geactiveerd. U kunt deze gebeurtenis gebruiken om te waarschuwen wanneer een taak langzaam wordt uitgevoerd. Zie Meldingen configureren voor trage taken. Als u een maximale voltooiingstijd voor een taak wilt configureren, voert u de maximale duur in het veld Time-out in. Als de taak in deze tijd niet wordt voltooid, stelt Azure Databricks de status in op Timed Out.
Als u een drempelwaarde wilt configureren voor een streamingachterstandmetriek, selecteert u de metriek in de vervolgkeuzelijst Metriek en voert u een waarde in voor de drempel. Zie Metrische gegevens weergeven voor streamingtakenvoor meer informatie over de specifieke metrische gegevens die worden ondersteund door een streamingbron.
Als een gebeurtenis wordt geactiveerd omdat een drempelwaarde wordt overschreden, kunt u de gebeurtenis gebruiken om een melding te verzenden. Zie Meldingen configureren voor trage taken.
U kunt desgewenst drempelwaarden voor duur opgeven voor taken. Zie Drempelwaarden configureren voor duur van taakuitvoering of metrische gegevens over streamingachterstanden.