Notebook-taak voor taken

Artikel
10/07/2024

Gebruik de notebook-taak om Databricks-notebooks te implementeren.

Een notebooktaak configureren

Voordat u begint, moet u uw notitieblok op een locatie hebben die toegankelijk is voor de gebruiker die de taak configureert.

Notitie

In de gebruikersinterface voor taken worden opties dynamisch weergegeven op basis van andere geconfigureerde instellingen.

De stroom starten om een Notebook taak te configureren:

Navigeer naar het tabblad Taken in de gebruikersinterface van Taken.
Selecteer in de Notebook .

De bron configureren

Selecteer in de vervolgkeuzelijst Bron een locatie voor het Python-script met behulp van een van de volgende opties.

Werkplek

Gebruik Werkruimte om een notebook te configureren dat is opgeslagen in de werkruimte door de volgende stappen uit te voeren:

Klik op het padveld. Het dialoogvenster Notitieblok selecteren wordt weergegeven.
Blader naar het notitieblok, klik om het bestand te markeren en klik op Bevestigen.

Notitie

U kunt deze optie gebruiken om een taak te configureren voor een notebook dat is opgeslagen in een Databricks Git-map. Databricks raadt u aan de optie voor de Git-provider en een externe Git-opslagplaats te gebruiken voor versiebeheerassets die zijn gepland met taken.

Git-provider

Gebruik de Git-provider om een notebook te configureren in een externe Git-opslagplaats.

De opties die door de gebruikersinterface worden weergegeven, zijn afhankelijk van of u al dan niet ergens anders een Git-provider hebt geconfigureerd. Er kan slechts één externe Git-opslagplaats worden gebruikt voor alle taken in een taak. Zie Git gebruiken met taken.

Belangrijk

Notebooks die zijn gemaakt door Azure Databricks-taken die worden uitgevoerd vanuit externe Git-opslagplaatsen, zijn kortstondig en kunnen niet worden gebruikt om MLflow-uitvoeringen, experimenten of modellen bij te houden. Wanneer u een notebook maakt op basis van een taak, gebruikt u een MLflow-werkruimteexperiment (in plaats van een notebook MLflow-experiment) en roept mlflow.set_experiment("/path/to/experiment") u het werkruimtenotitieblok aan voordat u een MLflow-traceringscode uitvoert. Zie Gegevensverlies voorkomen in MLflow-experimenten voor meer informatie.

Het veld Pad wordt weergegeven nadat u een Git-verwijzing hebt geconfigureerd.

Voer het relatieve pad voor uw notitieblok in, zoals etl/bronze/ingest.py.

Belangrijk

Wanneer u het relatieve pad invoert, begint u niet met / of ./. Als het absolute pad voor het notitieblok dat u wilt openen bijvoorbeeld is /etl/bronze/ingest.py, voert etl/bronze/ingest.py u dit in het veld Pad in.

Reken- en afhankelijke bibliotheken configureren

Gebruik Compute om een cluster te selecteren of te configureren dat ondersteuning biedt voor de logica in uw notebook.
Als u rekenkracht gebruikt Serverless , gebruikt u het veld Omgeving en bibliotheken om een nieuwe omgeving te selecteren, te bewerken of toe te voegen. Zie Notebook-afhankelijkheden installeren.
Klik voor alle andere rekenconfiguraties op + Toevoegen onder Afhankelijke bibliotheken. Het dialoogvenster Afhankelijke bibliotheek toevoegen wordt weergegeven.
- U kunt een bestaande bibliotheek selecteren of een nieuwe bibliotheek uploaden.
- U kunt alleen bibliotheken gebruiken die zijn opgeslagen op een locatie die wordt ondersteund door uw rekenconfiguraties. Zie ondersteuning voor Python-bibliotheken.
- Elke bibliotheekbron heeft een andere stroom voor het selecteren of uploaden van een bibliotheek. Zie Bibliotheken.

Taakconfiguratie voltooien

(Optioneel) Configureer parameters als sleutel-waardeparen die kunnen worden geopend in het notebook met behulp van dbutils.widgets. Zie Taakparameters configureren.
Klik op Taak opslaan.

Beperkingen

De totale uitvoer van notebookcellen (de gecombineerde uitvoer van alle notebookcellen) is onderworpen aan een maximale grootte van 20 MB. Daarnaast is de uitvoer van afzonderlijke cellen onderworpen aan een maximale grootte van 8 MB. Als de totale celuitvoer groter is dan 20 MB of als de uitvoer van een afzonderlijke cel groter is dan 8 MB, wordt de uitvoering geannuleerd en gemarkeerd als mislukt.

Als u hulp nodig hebt bij het vinden van cellen bijna of buiten de limiet, voert u het notebook uit op een cluster voor alle doeleinden en gebruikt u deze techniek voor automatisch opslaan van notebooks.

Delen via