Hoe Azure Data Factory werkt

7 minuten

Hier vindt u informatie over de onderdelen en onderling verbonden systemen van Azure Data Factory en hoe ze werken. Met deze kennis kunt u bepalen hoe u Azure Data Factory het beste kunt gebruiken om te voldoen aan de vereisten van uw organisatie.

Azure Data Factory is een verzameling onderling verbonden systemen die een end-to-end gegevensanalyseplatform bieden. In deze les leert u meer over de volgende Azure Data Factory-functies:

Verbinding maken en verzamelen
Transformeren en verrijken
Continue integratie en levering (CI/CD) en publiceren
Controleren

U krijgt ook informatie over deze belangrijke onderdelen van Azure Data Factory:

Pipelines
Activiteiten
Gegevenssets
Gekoppelde services
Gegevensstromen
Integration Runtimes

Azure Data Factory-functies

Azure Data Factory bestaat uit verschillende functies die uw data engineers voorzien van een volledig platform voor gegevensanalyse.

Verbinding maken en verzamelen

Het eerste deel van het proces is het verzamelen van de vereiste gegevens uit de juiste gegevensbronnen. Deze bronnen kunnen zich op verschillende locaties bevinden, waaronder on-premises bronnen en in de cloud. De gegevens kunnen het volgende zijn:

gestructureerd
Ongestructureerd
semi-gestructureerd

Bovendien kunnen deze verschillende gegevens op verschillende snelheden en intervallen aankomen. Met Azure Data Factory kunt u de kopieeractiviteit gebruiken om gegevens van verschillende bronnen naar één gecentraliseerd gegevensarchief in de cloud te verplaatsen. Nadat u de gegevens hebt gekopieerd, gebruikt u andere systemen om deze te transformeren en te analyseren.

De kopieeractiviteit voert de volgende stappen op hoog niveau uit:

Gegevens lezen uit het brongegevensarchief.
Voer de volgende taken uit op de gegevens:
- Serialisatie/deserialisatie
- Compressie/decompressie
- Toewijzen van kolommen
Notitie

Er zijn mogelijk extra taken.
Gegevens schrijven naar het doelgegevensarchief (ook wel de sink genoemd).

Dit proces wordt samengevat in de volgende afbeelding:

Afbeelding die het voorgaande proces weergeeft.

Transformeren en verrijken

Nadat u de gegevens naar een centrale cloudlocatie hebt gekopieerd, kunt u de gegevens zo nodig verwerken en transformeren met behulp van toewijzingsgegevensstromen van Azure Data Factory. Met gegevensstromen kunt u grafieken voor gegevenstransformatie maken die worden uitgevoerd in Spark. U hoeft echter geen inzicht te hebben in Spark-clusters of Spark-programmering.

Tip

Hoewel dit niet nodig is, kunt u uw transformaties liever handmatig codeeren. Zo ja, dan ondersteunt Azure Data Factory externe activiteiten voor het uitvoeren van uw transformaties.

CI/CD en publiceren

Met ondersteuning voor CI/CD kunt u uw ETL-processen (extract, transform, load) stapsgewijs ontwikkelen en leveren voordat u publiceert. Azure Data Factory biedt CI/CD van uw gegevenspijplijnen met behulp van:

Azure DevOps
GitHub

Notitie

Continue integratie betekent dat elke wijziging die in uw codebasis is aangebracht, automatisch zo snel mogelijk wordt getest. Continue levering volgt deze test en pusht wijzigingen in een faserings- of productiesysteem.

Nadat Azure Data Factory de onbewerkte gegevens heeft verfijnd, kunt u de gegevens laden in de analyse-engine waartoe uw zakelijke gebruikers toegang hebben vanuit hun business intelligence-hulpprogramma's, waaronder:

Azure Synapse Analytics
Azure SQL Database
Azure Cosmos DB

Monitor

Nadat u uw pijplijn voor gegevensintegratie hebt gebouwd en geïmplementeerd, is het belangrijk dat u uw geplande activiteiten en pijplijnen kunt bewaken. Met bewaking kunt u succes- en foutpercentages bijhouden. Azure Data Factory biedt ondersteuning voor pijplijnbewaking met behulp van een van de volgende methoden:

Azure Monitor
API
Powershell
Azure Monitor-logboeken
Statusvensters in Azure Portal

Azure Data Factory-onderdelen

Azure Data Factory bestaat uit de onderdelen die in de volgende tabel worden beschreven:

Onderdeel	Beschrijving
Pipelines	Een logische groepering van activiteiten die een specifieke werkeenheid uitvoeren. Deze activiteiten voeren samen een taak uit. Het voordeel van het gebruik van een pijplijn is dat u de activiteiten eenvoudiger kunt beheren als een set in plaats van als afzonderlijke items.
Activiteiten	Eén verwerkingsstap in een pijplijn. Azure Data Factory ondersteunt drie soorten activiteiten: gegevensverplaatsing, gegevenstransformatie en controleactiviteiten.
Gegevenssets	Vertegenwoordig gegevensstructuren in uw gegevensarchieven. Gegevenssets verwijzen naar (of verwijzen) naar de gegevens die u in uw activiteiten wilt gebruiken als invoer of uitvoer.
Gekoppelde services	Definieer de vereiste verbindingsgegevens die nodig zijn voor Azure Data Factory om verbinding te maken met externe resources, zoals een gegevensbron. Azure Data Factory maakt gebruik van gekoppelde services voor twee doeleinden: een gegevensarchief of een rekenresource vertegenwoordigen.
Gegevensstromen	Stel uw data engineers in staat om logica voor gegevenstransformatie te ontwikkelen zonder code te hoeven schrijven. Gegevensstromen worden uitgevoerd als activiteiten in Azure Data Factory-pijplijnen die gebruikmaken van uitgeschaalde Apache Spark-clusters.
Integration Runtimes	Azure Data Factory maakt gebruik van de rekeninfrastructuur om de volgende mogelijkheden voor gegevensintegratie te bieden in verschillende netwerkomgevingen: gegevensstroom, gegevensverplaatsing, activiteitsverzending en uitvoering van SSIS-pakketten (SQL Server Integration Services). In Azure Data Factory biedt een integratieruntime de brug tussen de activiteit en gekoppelde services.

Zoals aangegeven in de volgende afbeelding, werken deze onderdelen samen om een volledig end-to-end platform voor data engineers te bieden. Met Data Factory kunt u het volgende doen:

Stel triggers op aanvraag in en plan gegevensverwerking op basis van uw behoeften.
Koppel een pijplijn aan een trigger of start deze handmatig zo nodig.
Maak verbinding met gekoppelde services (zoals on-premises apps en gegevens) of Azure-services via integration runtimes.
Bewaak al uw pijplijnuitvoeringen op systeemeigen wijze in de Gebruikerservaring van Azure Data Factory of met behulp van Azure Monitor.

Afbeelding van de interactie van de onderdelen die in de voorgaande tabel worden beschreven.