Dela via


Konfigurera en DLT-pipeline

Den här artikeln beskriver den grundläggande konfigurationen för DLT-pipelines med hjälp av arbetsytans användargränssnitt.

Databricks rekommenderar att du utvecklar nya pipelines med hjälp av serverlös. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös DLT-pipeline.

Konfigurationsinstruktionerna i den här artikeln använder Unity Catalog. Anvisningar för hur du konfigurerar pipelines med äldre Hive-metaarkiv finns i Använda DLT-pipelines med äldre Hive-metaarkiv.

I den här artikeln beskrivs funktioner för det aktuella standardpubliceringsläget för pipelines. Pipelines som skapats före den 5 februari 2025 kan använda det äldre publiceringsläget och LIVE virtuella schemat. Se LIVE-schema (äldre).

Obs

Användargränssnittet har ett alternativ för att visa och redigera inställningar i JSON. Du kan konfigurera de flesta inställningar med antingen användargränssnittet eller en JSON-specifikation. Vissa avancerade alternativ är endast tillgängliga med hjälp av JSON-konfigurationen.

JSON-konfigurationsfiler är också användbara när du distribuerar pipelines till nya miljöer eller använder CLI eller REST API-.

En fullständig referens till konfigurationsinställningarna för DLT JSON finns i DLT-pipelinekonfigurationer.

Konfigurera en ny DLT-pipeline

Gör följande för att konfigurera en ny DLT-pipeline:

  1. Klicka på DLT- i sidofältet.
  2. Klicka på Skapa pipeline.
  3. Ange ett unikt pipeline-namn.
  4. (Valfritt) Använd -filväljaren för att konfigurera anteckningsboksfiler och arbetsytefiler som källkod.
    • Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i din användarkatalog, och en länk för att komma åt den här anteckningsboken visas i fältet Källkod i fönstret för Pipeline-information när du har skapat pipelinen.
      • Du kan komma åt den här notebook-filen med URL:en som visas under fältet Källkod i panelen för Pipeline-detaljer när du har skapat din pipeline.
    • Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
  5. Välj Unity Catalog under Lagringsalternativ.
  6. Välj en katalog . Den här inställningen styr standardkatalogen och lagringsplatsen för pipelinemetadata.
  7. Välj ett schema i katalogen. Som standard skapas strömmande tabeller och materialiserade vyer som definierats i pipelinen i det här schemat.
  8. I avsnittet Compute markerar du kryssrutan bredvid Använd fotonacceleration. Ytterligare överväganden för beräkningskonfiguration finns i Konfigurationsalternativ för beräkning.
  9. Klicka på Skapa.

Dessa rekommenderade konfigurationer skapar en ny pipeline som konfigureras för att köras i triggade-läge och använder kanalen Nuvarande. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. För mer information om att schemalägga pipelines, se DLT-pipelineuppgift för jobb.

konfigurationsalternativ för Compute

Databricks rekommenderar att du alltid använder Förbättrad automatisk skalning. Standardvärden för andra beräkningskonfigurationer fungerar bra för många pipelines.

Serverlösa pipelines tar bort möjligheten att konfigurera beräkningar. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös DLT-pipeline.

Använd följande inställningar för att anpassa beräkningskonfigurationer:

  • Använd klustertaggar för att övervaka kostnader som är associerade med DLT-pipelines. Se Konfigurera klusteretiketter.
  • Konfigurera instanstyper för att ange vilken typ av virtuella datorer som används för att köra pipelinen. Se Välj instanstyper för att köra en pipeline.
    • Välj en arbetstyp optimerad för de arbetsbelastningar som konfigurerats i din pipeline.
    • Du kan också välja en drivrutinstyp som skiljer sig från din arbetstyp. Detta kan vara användbart för att minska kostnaderna i pipelines med stora arbetstyper och låg användning av drivrutinsberäkning eller för att välja en större drivrutinstyp för att undvika problem med minnesbrist i arbetsbelastningar med många små arbetare.

Andra konfigurationsöverväganden

Följande konfigurationsalternativ är också tillgängliga för pipelines:

Välj en produktutgåva

Välj DLT-produktutgåvan med de bästa funktionerna för dina pipelinekrav. Följande produktversioner är tillgängliga:

  • Core för att köra strömmande inmatningsarbetsflöden. Välj den Core utgåvan om pipelinen inte kräver avancerade funktioner som CDC (Change Data Capture) eller DLT-förväntningar.
  • Pro för att köra strömmade inmatnings- och CDC-arbetsbelastningar. Den Pro produktutgåvan stöder alla Core funktioner, plus stöd för arbetsbelastningar som kräver uppdatering av tabeller baserat på ändringar i källdata.
  • Advanced för att köra strömmande inläsningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver uppfyllelse av förväntade resultat. Den Advanced produktutgåvan stöder funktionerna i Core och Pro utgåvor och innehåller datakvalitetsbegränsningar med DLT-förväntningar.

Du kan välja produktutgåvan när du skapar eller redigerar en pipeline. För varje pipeline kan du välja en annan utgåva. Se produktsidan för DLT.

Obs! Om din pipeline innehåller funktioner som inte stöds av den valda produktutgåvan, till exempel förväntningar, får du ett felmeddelande som förklarar orsaken till felet. Du kan sedan redigera pipelinen för att välja lämplig utgåva.

Konfigurera källkod

Du kan använda filväljaren i DLT-användargränssnittet för att konfigurera källkoden som definierar din pipeline. Pipeline-källkod definieras i Databricks-notebook-filer eller SQL- eller Python-skript som lagras i arbetsytefiler. När du skapar eller redigerar din pipeline kan du lägga till en eller flera notebook-filer eller arbetsytefiler eller en kombination av notebook-filer och arbetsytefiler.

Eftersom DLT automatiskt analyserar datamängdsberoenden för att konstruera bearbetningsdiagrammet för din pipeline kan du lägga till källkodstillgångar i valfri ordning.

Du kan ändra JSON-filen så att den innehåller DLT-källkod som definierats i SQL- och Python-skript som lagras i arbetsytefiler. I följande exempel ingår notebook-filer och arbetsytefiler:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Hantera externa beroenden för pipelines som använder Python

DLT stöder användning av externa beroenden i dina pipelines, till exempel Python-paket och bibliotek. Mer information om alternativ och rekommendationer för användning av beroenden finns i Hantera Python-beroenden för DLT-pipelines.

Använda Python-moduler som lagras på din Azure Databricks-arbetsyta

Förutom att implementera Python-koden i Databricks-notebook-filer kan du använda Databricks Git-mappar eller arbetsytefiler för att lagra koden som Python-moduler. Det är särskilt användbart att lagra koden som Python-moduler när du har vanliga funktioner som du vill använda i flera pipelines eller notebook-filer i samma pipeline. Information om hur du använder Python-moduler med dina pipelines finns i Importera Python-moduler från Git-mappar eller arbetsytefiler.