Notebook-uppgift för jobb
Använd notebook-uppgiften för att distribuera Databricks-notebook-filer.
Konfigurera en notebook-uppgift
Innan du börjar måste du ha anteckningsboken på en plats som är tillgänglig för användaren som konfigurerar jobbet.
Kommentar
Användargränssnittet för jobb visar alternativ dynamiskt baserat på andra konfigurerade inställningar.
Så här startar du flödet för att konfigurera en Notebook
uppgift:
- Gå till fliken Uppgifter i användargränssnittet för jobb.
- I listrutan Type väljer du
Notebook
.
Konfigurera källan
I listrutan Source väljer du en plats för Python-skriptet med något av följande alternativ.
Arbetsyta
Använd Arbetsyta för att konfigurera en notebook-fil som lagras på arbetsytan genom att utföra följande steg:
- Klicka på fältet Sökväg . Dialogrutan Välj anteckningsbok visas.
- Bläddra till anteckningsboken, klicka för att markera filen och klicka på Bekräfta.
Kommentar
Du kan använda det här alternativet för att konfigurera en uppgift för en notebook-fil som lagras i en Databricks Git-mapp. Databricks rekommenderar att du använder alternativet Git-provider och en fjärransluten Git-lagringsplats för versionshantering av tillgångar som schemalagts med jobb.
Git-provider
Använd Git-providern för att konfigurera en notebook-fil på en fjärransluten Git-lagringsplats.
Vilka alternativ som visas i användargränssnittet beror på om du redan har konfigurerat en Git-provider någon annanstans. Endast en fjärransluten Git-lagringsplats kan användas för alla uppgifter i ett jobb. Se Använda Git med jobb.
Viktigt!
Notebook-filer som skapats av Azure Databricks-jobb som körs från fjärranslutna Git-lagringsplatser är tillfälliga och kan inte användas för att spåra MLflow-körningar, experiment eller modeller. När du skapar en notebook-fil från ett jobb använder du ett MLflow-experiment för arbetsytan (i stället för ett MLflow-experiment för notebook-filer) och anropar mlflow.set_experiment("/path/to/experiment")
i anteckningsboken för arbetsytan innan du kör någon MLflow-spårningskod. Mer information finns i Förhindra dataförlust i MLflow-experiment.
Fältet Sökväg visas när du har konfigurerat en git-referens.
Ange den relativa sökvägen för notebook-filen, till exempel etl/bronze/ingest.py
.
Viktigt!
När du anger den relativa sökvägen ska du inte börja med /
eller ./
. Om den absoluta sökvägen för anteckningsboken som du vill komma åt till exempel är /etl/bronze/ingest.py
anger du etl/bronze/ingest.py
i fältet Sökväg .
Konfigurera beräkningsbibliotek och beroende bibliotek
- Använd Compute för att välja eller konfigurera ett kluster som stöder den logik i notebooken.
- Om du använder
Serverless
beräkning använder du fältet miljö och bibliotek för att välja, redigera eller lägga till en ny miljö. Se Installera notebook-beroenden. - För alla andra beräkningskonfigurationer klickar du på + Lägg till under Beroende bibliotek. Dialogrutan Lägg till beroende bibliotek visas.
- Du kan välja ett befintligt bibliotek eller ladda upp ett nytt bibliotek.
- Du kan bara använda bibliotek som lagras på en plats som stöds av dina beräkningskonfigurationer. Se Stöd för Python-bibliotek.
- Varje bibliotekskälla har ett annat flöde för att välja eller ladda upp ett bibliotek. Se Bibliotek.
Slutför jobbkonfigurationen
- (Valfritt) Konfigurera parametrar som nyckel-värdepar som kan nås i notebook med hjälp av
dbutils.widgets
. Se Konfigurera aktivitetsparametrar. - Klicka på Spara uppgift.
Begränsningar
Totalt antal notebook-cellutdata (de kombinerade utdata från alla notebook-celler) omfattas av en storleksgräns på 20 MB. Dessutom omfattas enskilda cellutdata av en storleksgräns på 8 MB. Om den totala cellens utdata överskrider 20 MB i storlek, eller om utdata från en enskild cell är större än 8 MB, avbryts körningen och markeras som misslyckad.
Om du behöver hjälp med att hitta celler nära eller utanför gränsen kör du notebook-filen mot ett universellt kluster och använder denna teknik för automatisk lagring av notebook-filer.