Konfigurera en serverlös DLT-pipeline
I den här artikeln beskrivs konfigurationer för serverlösa DLT-pipelines.
Databricks rekommenderar att utveckla nya pipelines med serverlös arkitektur. Vissa arbetsbelastningar kan kräva att du konfigurerar klassisk beräkning eller arbetar med det äldre Hive-metaarkivet. Se Konfigurera datorkapacitet för en DLT-pipeline och Använd DLT-pipelines med gammalt Hive metastore.
Anmärkning
- Serverlösa pipelines använder alltid "Unity Catalog". Unity Catalog för DLT finns i offentlig förhandsversion och har vissa begränsningar. Ta en titt på Använd Unity Catalog med dina DLT-pipelines.
- Information om serverlösa beräkningsbegränsningar finns i Begränsningar för serverlös beräkning.
- Du kan inte lägga till beräkningsinställningar manuellt i ett
clusters
objekt i JSON-konfigurationen för en serverlös pipeline. Om du försöker göra det resulterar det i ett fel.
- Om du behöver använda en Azure Private Link-anslutning med dina serverlösa DLT-pipelines kontaktar du din Databricks-representant.
Krav
- Din arbetsyta måste ha Unity Catalog aktiverad för att kunna använda serverlösa datarörledningar.
- Arbetsytan måste vara i en region med serverlös kapacitet.
Rekommenderad konfiguration för serverlösa pipelines
Viktigt!
Behörighet att skapa kluster krävs inte för att konfigurera serverlösa pipelines. Som standard kan alla arbetsyteanvändare använda serverlösa pipelines.
Serverlösa pipelines tar bort de flesta konfigurationsalternativ eftersom Azure Databricks hanterar all infrastruktur. Gör följande för att konfigurera en serverlös pipeline:
- Klicka på DLT- i sidofältet.
- Klicka på Skapa pipeline.
- Ange ett unikt pipeline-namn.
- Markera kryssrutan bredvid Serverlös.
- (Valfritt) Använd
för att konfigurera anteckningsboksfiler och arbetsytefiler som källkod.
- Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i din användarkatalog, och en länk för att komma åt den här anteckningsboken visas i fältet Källkod i fönstret för Pipeline-information när du har skapat pipelinen.
- En länk för att komma åt den här notebook-filen finns under fältet Källkod i panelen Pipelineinformation när du har skapat din pipeline.
- Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
- Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i din användarkatalog, och en länk för att komma åt den här anteckningsboken visas i fältet Källkod i fönstret för Pipeline-information när du har skapat pipelinen.
- Välj en katalog för att publicera data.
- Välj ett schema i katalogen. Alla strömmande tabeller och materialiserade vyer som definierats i pipelinen skapas i det här schemat.
- Klicka på Skapa.
Dessa rekommenderade konfigurationer skapar en ny pipeline som är konfigurerad att köras i utlösningsläge och den aktuella kanalen. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. För mer information om att schemalägga pipelines, se DLT-pipelineuppgift för jobb.
Du kan också konvertera befintliga pipelines, som har konfigurerats med Unity Catalog, till att använda serverlöst. Se Konvertera en befintlig pipeline för att använda serverlös teknik.
Andra konfigurationsöverväganden
Följande konfigurationsalternativ är också tillgängliga för serverlösa pipelines:
- Du kan välja om du vill använda pipelineläget Kontinuerlig när du kör pipelines i produktion. Se Triggad pipeline-läge kontra kontinuerligt läge.
- Lägg till meddelanden för e-postuppdateringar vid framgångs- eller misslyckandeförhållanden. Se Lägg till e-postaviseringar för pipelinehändelser.
- Använd fältet Konfiguration för att ange nyckel/värde-par för pipelinen. Dessa konfigurationer har två syften:
- Ange godtyckliga parametrar som du kan referera till i källkoden. Se Använd parametrar med DLT-pipelines.
- Konfigurera pipelineinställningar och Spark-konfigurationer. Se DLT-egenskapers referens.
- Använd Preview-kanal för att testa din pipeline mot väntande DLT-körningsändringar och prova nya funktioner.
serverlös budgetprincip
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Med serverlösa budgetprinciper kan din organisation tillämpa anpassade taggar på serverlös användning för detaljerad faktureringsattribution. När du har markerat kryssrutan Serverlös visas inställningen budgetprincip där du kan välja den princip som du vill tillämpa på pipelinen. Taggarna ärvs från den serverlösa budgetprincipen och kan bara redigeras av arbetsyteadministratörer.
Anmärkning
När du har tilldelats en serverlös budgetpolicy taggas inte dina befintliga pipelines automatiskt med din policy. Du måste uppdatera befintliga pipelines manuellt om du vill koppla en princip till dem.
Mer information om serverlösa budgetprinciper finns i Attributanvändning med serverlösa budgetprinciper.
Serverlös pipeline-funktioner
Förutom att förenkla konfigurationen har serverlösa pipelines följande funktioner:
- Inkrementell uppdatering för materialiserade vyer: Uppdateringar för materialiserade vyer uppdateras stegvis när det är möjligt. Inkrementell uppdatering har samma resultat som fullständig omkomputation. Uppdateringen använder en fullständig uppdatering om resultatet inte kan beräknas stegvis. Se Inkrementell uppdatering för materialiserade vyer.
- Stream pipelining: För att förbättra användningen, genomströmningen och svarstiden för strömmande dataarbetsbelastningar, till exempel datainmatning, pipelinade mikrobatcher. Med andra ord, i stället för att köra mikrobatcher sekventiellt som Standard Spark Structured Streaming, kör serverlösa DLT-pipelines mikrobatcher samtidigt, vilket förbättrar användningen av beräkningsresurser. Stream pipelining är aktiverat som standard i serverlösa DLT-pipelines.
- Vertikal autoskalning: serverlösa DLT-pipelines lägger till den horisontella autoskalning som tillhandahålls av Databricks förbättrade autoskalning genom att automatiskt allokera de mest kostnadseffektiva instanstyperna som kan köra din DLT-pipeline utan att misslyckas på grund av minnesbristfel. Se Vad är vertikal autoskalning?
Vad är vertikal autoskalning?
Lodrät autoskalning av serverlösa DLT-pipelines allokerar automatiskt de mest kostnadseffektiva tillgängliga instanstyperna för att köra DLT-pipelineuppdateringarna utan att misslyckas på grund av minnesfel. Vertikal autoskalning skalas upp när större instanstyper krävs för att köra en pipelineuppdatering och skalas ned när den fastställer att uppdateringen kan köras med mindre instanstyper. Lodrät autoskalning avgör om drivrutinsnoder, arbetsnoder eller både drivrutins- och arbetsnoder ska skalas upp eller ned.
Vertikal autoscaling används för alla serverlösa DLT-pipelines, inklusive pipelines som används för Databricks SQL-materialiserade vyer och strömmande tabeller.
Lodrät autoskalning fungerar genom att identifiera pipelineuppdateringar som har misslyckats på grund av brist på minne. Lodrät autoskalning allokerar större instanstyper när dessa fel identifieras baserat på minnesutdata som samlats in från den misslyckade uppdateringen. I produktionsläge startas en ny uppdatering som använder de nya beräkningsresurserna automatiskt. I utvecklingsläge används de nya beräkningsresurserna när du startar en ny uppdatering manuellt.
Om vertikal autoskalning upptäcker att minnet hos de tilldelade instanserna är konsekvent underutnyttjat, kommer den att skala ned instanstyperna för användning i nästa pipeline-uppdatering.
Konvertera en befintlig pipeline till att använda serverlös
Du kan konvertera befintliga pipelines som konfigurerats med Unity Catalog till serverlösa pipelines. Slutför följande steg:
- Klicka på DLT- i sidofältet.
- Klicka på namnet på den önskade pipelinen i listan.
- Klicka på Inställningar.
- Markera kryssrutan bredvid Serverlös.
- Klicka på Spara och starta.
Viktigt!
När du aktiverar serverlös tas alla beräkningsinställningar som du har konfigurerat för en pipeline bort. Om du växlar tillbaka en pipeline till icke-serverlösa uppdateringar måste du konfigurera om önskade beräkningsinställningar till pipelinekonfigurationen.
Hur hittar jag DBU-användningen av en serverlös pipeline?
Du hittar DBU-användningen av serverlösa DLT-pipelines genom att använda den fakturerbara användningstabellen, som är en del av Azure Databricks-systemtabellerna. Se Vad är DBU-förbrukningen för en serverlös DLT-pipeline?.