Dela via


Konfigurera en Delta Live Tables-pipeline

Den här artikeln beskriver den grundläggande konfigurationen för Delta Live Tables-pipelines med hjälp av arbetsytans användargränssnitt.

Databricks rekommenderar att du utvecklar nya pipelines med hjälp av serverlös. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös Delta Live Tables-pipeline.

Konfigurationsinstruktionerna i den här artikeln använder Unity Catalog. Anvisningar för hur du konfigurerar pipelines med äldre Hive-metaarkiv finns i Använda Delta Live Tables-pipelines med äldre Hive-metaarkiv.

I den här artikeln beskrivs funktioner för det aktuella standardpubliceringsläget för pipelines. Pipelines som skapats före den 5 februari 2025 kan använda det äldre publiceringsläget och LIVE virtuella schemat. Se LIVE-schema (äldre version).

Kommentar

Användargränssnittet har ett alternativ för att visa och redigera inställningar i JSON. Du kan konfigurera de flesta inställningar med antingen användargränssnittet eller en JSON-specifikation. Vissa avancerade alternativ är endast tillgängliga med hjälp av JSON-konfigurationen.

JSON-konfigurationsfiler är också användbara när du distribuerar pipelines till nya miljöer eller använder CLI eller REST API.

En fullständig referens till JSON-konfigurationsinställningarna för Delta Live Tables finns i Pipelinekonfigurationer för Delta Live Tables.

Konfigurera en ny Delta Live Tables-pipeline

Gör följande för att konfigurera en ny Delta Live Tables-pipeline:

  1. Klicka på Delta Live Tables (Delta Live Tables ) i sidofältet.
  2. Klicka på Skapa pipeline.
  3. Ange ett unikt pipelinenamn.
  4. (Valfritt) Använd filväljaren Ikon för filväljare för att konfigurera notebook-filer och arbetsytefiler som källkod.
    • Om du inte lägger till någon källkod skapas en ny notebook-fil för pipelinen. Anteckningsboken skapas i en ny katalog i användarkatalogen och en länk för att komma åt den här notebook-filen visas i fältet Källkod i fönstret Pipelineinformation när du har skapat pipelinen.
      • Du kan komma åt den här notebook-filen med URL:en som visas under fältet Källkod i panelen Pipelineinformation när du har skapat din pipeline.
    • Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
  5. Välj Unity Catalog under Lagringsalternativ.
  6. Välj en katalog. Den här inställningen styr standardkatalogen och lagringsplatsen för pipelinemetadata.
  7. Välj ett schema i katalogen. Som standard skapas strömmande tabeller och materialiserade vyer som definierats i pipelinen i det här schemat.
  8. I avsnittet Beräkning markerar du kryssrutan bredvid Använd fotonacceleration. Ytterligare överväganden för beräkningskonfiguration finns i Konfigurationsalternativ för beräkning.
  9. Klicka på Skapa.

Dessa rekommenderade konfigurationer skapar en ny pipeline som är konfigurerad att köras i utlöst läge och använder den aktuella kanalen. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. Mer information om hur du schemalägger pipelines finns i Delta Live Tables pipeline task for jobs (Delta Live Tables pipeline task for jobs).

Konfigurationsalternativ för beräkning

Databricks rekommenderar att du alltid använder förbättrad automatisk skalning. Standardvärden för andra beräkningskonfigurationer fungerar bra för många pipelines.

Serverlösa pipelines tar bort konfigurationsalternativ för beräkning. Konfigurationsinstruktioner för serverlösa pipelines finns i Konfigurera en serverlös Delta Live Tables-pipeline.

Använd följande inställningar för att anpassa beräkningskonfigurationer:

  • Arbetsyteadministratörer kan konfigurera en klusterprincip. Med beräkningsprinciper kan administratörer styra vilka beräkningsalternativ som är tillgängliga för användare. Se Välj en klusterprincip.

  • Du kan också konfigurera klusterläget så att det körs med fast storlek eller äldre autoskalning. Se Optimera klusteranvändningen för Delta Live Tables-pipelines med förbättrad autoskalning.

  • För arbetsbelastningar med automatisk skalning aktiverat anger du Min-arbetare och Max-arbetare för att ange gränser för skalningsbeteenden. Se Konfigurera beräkning för en Delta Live Tables-pipeline.

  • Du kan också inaktivera fotoacceleration. Se Vad är Photon?.

  • Använd klustertaggar för att övervaka kostnader som är associerade med Delta Live Tables-pipelines. Se Konfigurera klustertaggar.

  • Konfigurera instanstyper för att ange vilken typ av virtuella datorer som används för att köra pipelinen. Se Välj instanstyper för att köra en pipeline.

    • Välj en arbetstyp som är optimerad för de arbetsbelastningar som konfigurerats i din pipeline.
    • Du kan också välja en drivrutinstyp som skiljer sig från din arbetstyp. Detta kan vara användbart för att minska kostnaderna i pipelines med stora arbetstyper och låg användning av drivrutinsberäkning eller för att välja en större drivrutinstyp för att undvika problem med minnesbrist i arbetsbelastningar med många små arbetare.

Andra konfigurationsöverväganden

Följande konfigurationsalternativ är också tillgängliga för pipelines:

Välj en produktutgåva

Välj Delta Live Tables-produktutgåvan med de bästa funktionerna för dina pipelinekrav. Följande produktversioner är tillgängliga:

  • Core för att köra strömmande inmatningsarbetsbelastningar. Välj utgåvan Core om din pipeline inte kräver avancerade funktioner, till exempel CDC (Change Data Capture) eller Delta Live Tables-förväntningar.
  • Pro för att köra strömmande inmatning och CDC-arbetsbelastningar. Produktutgåvan Pro stöder alla funktioner, plus stöd för arbetsbelastningar som kräver uppdatering av Core tabeller baserat på ändringar i källdata.
  • Advanced för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver förväntningar. Produktutgåvan Advanced stöder funktionerna i utgåvorna Core och Pro innehåller datakvalitetsbegränsningar med Förväntningar på Delta Live Tables.

Du kan välja produktutgåvan när du skapar eller redigerar en pipeline. Du kan välja en annan utgåva för varje pipeline. Se produktsidan Delta Live Tables.

Obs! Om din pipeline innehåller funktioner som inte stöds av den valda produktutgåvan, till exempel förväntningar, får du ett felmeddelande som förklarar orsaken till felet. Du kan sedan redigera pipelinen för att välja lämplig utgåva.

Konfigurera källkod

Du kan använda filväljaren i Delta Live Tables-användargränssnittet för att konfigurera källkoden som definierar din pipeline. Pipeline-källkod definieras i Databricks-notebook-filer eller SQL- eller Python-skript som lagras i arbetsytefiler. När du skapar eller redigerar din pipeline kan du lägga till en eller flera notebook-filer eller arbetsytefiler eller en kombination av notebook-filer och arbetsytefiler.

Eftersom Delta Live Tables automatiskt analyserar beroenden för datauppsättningar för att konstruera bearbetningsdiagrammet för din pipeline kan du lägga till källkodstillgångar i valfri ordning.

Du kan ändra JSON-filen så att den innehåller Delta Live Tables-källkod som definierats i SQL- och Python-skript som lagras i arbetsytefiler. I följande exempel ingår notebook-filer och arbetsytefiler:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Hantera externa beroenden för pipelines som använder Python

Delta Live Tables stöder användning av externa beroenden i dina pipelines, till exempel Python-paket och bibliotek. Mer information om alternativ och rekommendationer för användning av beroenden finns i Hantera Python-beroenden för Delta Live Tables-pipelines.

Använda Python-moduler som lagras på din Azure Databricks-arbetsyta

Förutom att implementera Python-koden i Databricks-notebook-filer kan du använda Databricks Git-mappar eller arbetsytefiler för att lagra koden som Python-moduler. Det är särskilt användbart att lagra koden som Python-moduler när du har vanliga funktioner som du vill använda i flera pipelines eller notebook-filer i samma pipeline. Information om hur du använder Python-moduler med dina pipelines finns i Importera Python-moduler från Git-mappar eller arbetsytefiler.