Konfigurera en DLT-pipeline
Den här artikeln beskriver den grundläggande konfigurationen för DLT-pipelines med hjälp av arbetsytans användargränssnitt.
Databricks rekommenderar att du utvecklar nya pipelines med hjälp av serverlös. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös DLT-pipeline.
Konfigurationsinstruktionerna i den här artikeln använder Unity Catalog. Anvisningar för hur du konfigurerar pipelines med äldre Hive-metaarkiv finns i Använda DLT-pipelines med äldre Hive-metaarkiv.
I den här artikeln beskrivs funktioner för det aktuella standardpubliceringsläget för pipelines. Pipelines som skapats före den 5 februari 2025 kan använda det äldre publiceringsläget och LIVE
virtuella schemat. Se LIVE-schema (äldre).
Obs
Användargränssnittet har ett alternativ för att visa och redigera inställningar i JSON. Du kan konfigurera de flesta inställningar med antingen användargränssnittet eller en JSON-specifikation. Vissa avancerade alternativ är endast tillgängliga med hjälp av JSON-konfigurationen.
JSON-konfigurationsfiler är också användbara när du distribuerar pipelines till nya miljöer eller använder CLI eller REST API-.
En fullständig referens till konfigurationsinställningarna för DLT JSON finns i DLT-pipelinekonfigurationer.
Konfigurera en ny DLT-pipeline
Gör följande för att konfigurera en ny DLT-pipeline:
- Klicka på DLT- i sidofältet.
- Klicka på Skapa pipeline.
- Ange ett unikt pipeline-namn.
- (Valfritt) Använd
för att konfigurera anteckningsboksfiler och arbetsytefiler som källkod.
- Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i din användarkatalog, och en länk för att komma åt den här anteckningsboken visas i fältet Källkod i fönstret för Pipeline-information när du har skapat pipelinen.
- Du kan komma åt den här notebook-filen med URL:en som visas under fältet Källkod i panelen för Pipeline-detaljer när du har skapat din pipeline.
- Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
- Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i din användarkatalog, och en länk för att komma åt den här anteckningsboken visas i fältet Källkod i fönstret för Pipeline-information när du har skapat pipelinen.
- Välj Unity Catalog under Lagringsalternativ.
- Välj en katalog . Den här inställningen styr standardkatalogen och lagringsplatsen för pipelinemetadata.
- Välj ett schema i katalogen. Som standard skapas strömmande tabeller och materialiserade vyer som definierats i pipelinen i det här schemat.
- I avsnittet Compute markerar du kryssrutan bredvid Använd fotonacceleration. Ytterligare överväganden för beräkningskonfiguration finns i Konfigurationsalternativ för beräkning.
- Klicka på Skapa.
Dessa rekommenderade konfigurationer skapar en ny pipeline som konfigureras för att köras i triggade-läge och använder kanalen Nuvarande. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. För mer information om att schemalägga pipelines, se DLT-pipelineuppgift för jobb.
konfigurationsalternativ för Compute
Databricks rekommenderar att du alltid använder Förbättrad automatisk skalning. Standardvärden för andra beräkningskonfigurationer fungerar bra för många pipelines.
Serverlösa pipelines tar bort möjligheten att konfigurera beräkningar. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös DLT-pipeline.
Använd följande inställningar för att anpassa beräkningskonfigurationer:
- Arbetsyteadministratörer kan konfigurera en klusterprincip. Med beräkningsprinciper kan administratörer styra vilka beräkningsalternativ som är tillgängliga för användare. Se Välj en klusterprincip.
- Du kan valfritt konfigurera Klusterläge att köras med Fast storlek eller Legacy-autoskalning. Se Optimera klusteranvändningen av DLT-pipelines med förbättrad automatisk skalning.
- För arbetsbelastningar med automatisk skalning aktiverat anger du Min-arbetare och Maximalt antal arbetare för att ange gränser för skalningsbeteenden. Se Konfigurera beräkning för en DLT-pipeline.
- Du kan också inaktivera fotoacceleration. Se Vad är Photon?.
- Använd klustertaggar för att övervaka kostnader som är associerade med DLT-pipelines. Se Konfigurera klusteretiketter.
- Konfigurera instanstyper för att ange vilken typ av virtuella datorer som används för att köra pipelinen. Se Välj instanstyper för att köra en pipeline.
- Välj en arbetstyp optimerad för de arbetsbelastningar som konfigurerats i din pipeline.
- Du kan också välja en drivrutinstyp som skiljer sig från din arbetstyp. Detta kan vara användbart för att minska kostnaderna i pipelines med stora arbetstyper och låg användning av drivrutinsberäkning eller för att välja en större drivrutinstyp för att undvika problem med minnesbrist i arbetsbelastningar med många små arbetare.
Andra konfigurationsöverväganden
Följande konfigurationsalternativ är också tillgängliga för pipelines:
- Produktutgåvan Advanced ger dig åtkomst till alla DLT-funktioner. Du kan också köra pipelines med produktversionerna Pro eller Core. Se Välj en produktutgåva.
- Du kan välja om du vill använda pipelineläget Kontinuerlig när du kör pipelines i produktion. Se Triggad kontra kontinuerligt rörledningsläge.
- Om din arbetsyta inte har konfigurerats för Unity Catalog eller om din arbetsbelastning behöver använda det äldre Hive-metadatalagret, se Använd DLT-pipelines med äldre Hive-metadatalager.
- Lägg till meddelanden för e-postuppdateringar vid framgångs- eller misslyckandeförhållanden. Se Lägg till e-postaviseringar för pipelinehändelser.
- Använd fältet Configuration för att ange nyckel/värde-par för pipelinen. Dessa konfigurationer har två syften:
- Ange godtyckliga parametrar som du kan referera till i källkoden. Se Använd parametrar med DLT-pipelines.
- Konfigurera pipelineinställningar och Spark-konfigurationer. Se DLT-egenskapers referens.
- Använd Preview-kanal för att testa din pipeline mot väntande DLT-körningsändringar och prova nya funktioner.
Välj en produktutgåva
Välj DLT-produktutgåvan med de bästa funktionerna för dina pipelinekrav. Följande produktversioner är tillgängliga:
-
Core
för att köra strömmande inmatningsarbetsflöden. Välj denCore
utgåvan om pipelinen inte kräver avancerade funktioner som CDC (Change Data Capture) eller DLT-förväntningar. -
Pro
för att köra strömmade inmatnings- och CDC-arbetsbelastningar. DenPro
produktutgåvan stöder allaCore
funktioner, plus stöd för arbetsbelastningar som kräver uppdatering av tabeller baserat på ändringar i källdata. -
Advanced
för att köra strömmande inläsningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver uppfyllelse av förväntade resultat. DenAdvanced
produktutgåvan stöder funktionerna iCore
ochPro
utgåvor och innehåller datakvalitetsbegränsningar med DLT-förväntningar.
Du kan välja produktutgåvan när du skapar eller redigerar en pipeline. För varje pipeline kan du välja en annan utgåva. Se produktsidan för DLT.
Obs! Om din pipeline innehåller funktioner som inte stöds av den valda produktutgåvan, till exempel förväntningar, får du ett felmeddelande som förklarar orsaken till felet. Du kan sedan redigera pipelinen för att välja lämplig utgåva.
Konfigurera källkod
Du kan använda filväljaren i DLT-användargränssnittet för att konfigurera källkoden som definierar din pipeline. Pipeline-källkod definieras i Databricks-notebook-filer eller SQL- eller Python-skript som lagras i arbetsytefiler. När du skapar eller redigerar din pipeline kan du lägga till en eller flera notebook-filer eller arbetsytefiler eller en kombination av notebook-filer och arbetsytefiler.
Eftersom DLT automatiskt analyserar datamängdsberoenden för att konstruera bearbetningsdiagrammet för din pipeline kan du lägga till källkodstillgångar i valfri ordning.
Du kan ändra JSON-filen så att den innehåller DLT-källkod som definierats i SQL- och Python-skript som lagras i arbetsytefiler. I följande exempel ingår notebook-filer och arbetsytefiler:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Hantera externa beroenden för pipelines som använder Python
DLT stöder användning av externa beroenden i dina pipelines, till exempel Python-paket och bibliotek. Mer information om alternativ och rekommendationer för användning av beroenden finns i Hantera Python-beroenden för DLT-pipelines.
Använda Python-moduler som lagras på din Azure Databricks-arbetsyta
Förutom att implementera Python-koden i Databricks-notebook-filer kan du använda Databricks Git-mappar eller arbetsytefiler för att lagra koden som Python-moduler. Det är särskilt användbart att lagra koden som Python-moduler när du har vanliga funktioner som du vill använda i flera pipelines eller notebook-filer i samma pipeline. Information om hur du använder Python-moduler med dina pipelines finns i Importera Python-moduler från Git-mappar eller arbetsytefiler.