Så här fungerar Azure Data Factory

Slutförd

Här lär du dig mer om komponenter och sammankopplade system i Azure Data Factory och hur de fungerar. Den här kunskapen bör hjälpa dig att avgöra hur du bäst kan använda Azure Data Factory för att uppfylla organisationens krav.

Azure Data Factory är en samling sammankopplade system som kombineras för att tillhandahålla en plattform för dataanalys från slutpunkt till slutpunkt. I den här lektionen får du lära dig mer om följande Azure Data Factory-funktioner:

  • Ansluta och samla in
  • Omvandla och berika
  • Kontinuerlig integrering och leverans (CI/CD) och publicering
  • Övervakning

Du får också lära dig mer om de här viktiga komponenterna i Azure Data Factory:

  • Pipelines
  • Aktiviteter
  • Datauppsättningar
  • Länkade tjänster
  • Dataflöden
  • Integreringskörningar

Azure Data Factory-funktioner

Azure Data Factory består av flera funktioner som kombineras för att ge dina datatekniker en komplett plattform för dataanalys.

Ansluta och samla in

Den första delen av processen är att samla in nödvändiga data från lämpliga datakällor. Dessa källor kan finnas på olika platser, inklusive lokala källor och i molnet. Data kan vara:

  • Strukturerade
  • Ostrukturerat
  • Halvstrukturerade

Dessutom kan dessa olika data komma fram med olika hastigheter och intervall. Med Azure Data Factory kan du använda kopieringsaktiviteten för att flytta data från olika källor till ett enda centraliserat datalager i molnet. När du har kopierat data använder du andra system för att transformera och analysera dem.

Kopieringsaktiviteten utför följande steg på hög nivå:

  1. Läsa data från källdatalagret.

  2. Utför följande uppgifter på data:

    • Serialisering/deserialisering
    • Komprimering/dekomprimering
    • Kolumnmappning

    Kommentar

    Det kan finnas ytterligare uppgifter.

  3. Skriv data till måldatalagret (kallas för mottagare).

Den här processen sammanfattas i följande bild:

Bild som visar föregående process.

Omvandla och berika

När du har kopierat data till en central molnbaserad plats kan du bearbeta och transformera data efter behov med hjälp av Azure Data Factory-mappningsdataflöden. Med dataflöden kan du skapa datatransformeringsdiagram som körs på Spark. Du behöver dock inte förstå Spark-kluster eller Spark-programmering.

Dricks

Även om det inte är nödvändigt kanske du föredrar att koda dina transformeringar manuellt. I så fall har Azure Data Factory stöd för externa aktiviteter för att köra dina transformeringar.

CI/CD och publicera

Med stöd för CI/CD kan du utveckla och leverera dina ETL-processer (extract, transform, load) stegvis innan du publicerar. Azure Data Factory tillhandahåller CI/CD för dina datapipelines med hjälp av:

  • Azure DevOps
  • GitHub

Kommentar

Kontinuerlig integrering innebär att automatiskt testa varje ändring som görs i din kodbas så snart som möjligt. Kontinuerlig leverans följer den här testningen och skickar ändringar till ett mellanlagrings- eller produktionssystem.

När Azure Data Factory har förfinat rådata kan du läsa in data till den analysmotor som dina företagsanvändare kan komma åt från sina business intelligence-verktyg, inklusive:

  • Azure Synapse Analytics
  • Azure SQL Database
  • Azure Cosmos DB

Monitor

När du har skapat och distribuerat din dataintegreringspipeline är det viktigt att du kan övervaka dina schemalagda aktiviteter och pipelines. Med övervakning kan du spåra framgångs- och felfrekvenser. Azure Data Factory har stöd för pipelineövervakning med någon av följande metoder:

  • Azure Monitor
  • API
  • PowerShell
  • Azure Monitor-loggar
  • Hälsopaneler i Azure Portal

Azure Data Factory-komponenter

Azure Data Factory består av de komponenter som beskrivs i följande tabell:

Komponent beskrivning
Pipelines En logisk gruppering av aktiviteter som utför en specifik arbetsenhet. De här aktiviteterna utför tillsammans en uppgift. Fördelen med att använda en pipeline är att du enklare kan hantera aktiviteterna som en uppsättning i stället för som enskilda objekt.
Aktiviteter Ett enda bearbetningssteg i en pipeline. Azure Data Factory stöder tre typer av aktiviteter: dataförflyttning, datatransformering och kontrollaktiviteter.
Datauppsättningar Representera datastrukturer i dina datalager. Datauppsättningar pekar på (eller refererar till) de data som du vill använda i dina aktiviteter som antingen indata eller utdata.
Länkade tjänster Definiera den anslutningsinformation som krävs för att Azure Data Factory ska kunna ansluta till externa resurser, till exempel en datakälla. Azure Data Factory använder länkade tjänster i två syften: för att representera ett datalager eller en beräkningsresurs.
Dataflöden Gör det möjligt för dina datatekniker att utveckla datatransformeringslogik utan att behöva skriva kod. Dataflöden körs som aktiviteter i Azure Data Factory-pipelines som använder utskalade Apache Spark-kluster.
Integreringskörningar Azure Data Factory använder beräkningsinfrastrukturen för att tillhandahålla följande dataintegreringsfunktioner i olika nätverksmiljöer: dataflöde, dataflytt, aktivitetssändning och SQL Server Integration Services-paketkörning (SSIS). I Azure Data Factory tillhandahåller en integreringskörning bryggan mellan aktiviteten och länkade tjänster.

Som du ser i följande bild arbetar dessa komponenter tillsammans för att tillhandahålla en komplett plattform från slutpunkt till slutpunkt för datatekniker. Genom att använda Data Factory kan du:

  • Ange utlösare på begäran och schemalägg databearbetning baserat på dina behov.
  • Associera en pipeline med en utlösare eller starta den manuellt när det behövs.
  • Anslut till länkade tjänster (till exempel lokala appar och data) eller Azure-tjänster via integrationskörningar.
  • Övervaka alla pipelinekörningar internt i Azure Data Factory-användarupplevelsen eller med hjälp av Azure Monitor.

Bild som visar interaktionen mellan de komponenter som beskrivs i föregående tabell.