Werken met data factory-pijplijnen

Voltooid

Als u wilt werken met data factory-pijplijnen, is het noodzakelijk om te begrijpen wat een pijplijn in Azure Data Factory is.

Een pijplijn in Azure Data Factory vertegenwoordigt een logische groepering van activiteiten waarbij de activiteiten samen een bepaalde taak uitvoeren.

Een voorbeeld van een combinatie van activiteiten in één pijplijn kan logboekgegevens opnemen en opschonen in combinatie met een toewijzingsgegevensstroom die de logboekgegevens analyseert die zijn opgeschoond.

Met een pijplijn kunt u de afzonderlijke afzonderlijke activiteiten beheren als een set, die anders afzonderlijk worden beheerd. Hiermee kunt u de activiteiten efficiënt implementeren en plannen met behulp van één pijplijn, versus elke activiteit onafhankelijk beheren.

Activiteiten in een pijplijn worden acties genoemd die u op uw gegevens uitvoert. Een activiteit kan nul of meer invoergegevenssets hebben en een of meer uitvoergegevenssets produceren.

Een voorbeeld van een actie kan het gebruik zijn van een kopieeractiviteit, waarbij u gegevens kopieert van een Azure SQL Database naar een Azure DataLake Storage Gen2. Als u wilt voortbouwen op dit voorbeeld, kunt u een gegevensstroomactiviteit of een Azure Databricks Notebook-activiteit gebruiken voor het verwerken en transformeren van de gegevens die zijn gekopieerd naar uw Azure Data Lake Storage Gen2-account om de gegevens gereed te maken voor business intelligence-rapportageoplossingen, zoals in Azure Synapse Analytics.

Omdat er veel activiteiten mogelijk zijn in een pijplijn in Azure Data Factory, hebben we de activiteiten gegroepeerd in drie categorieën:

  • Activiteiten voor gegevensverplaatsing: De kopieeractiviteit in Data Factory kopieert gegevens uit een brongegevensarchief naar een sinkgegevensarchief.
  • Activiteiten voor gegevenstransformatie: Azure Data Factory ondersteunt transformatieactiviteiten zoals Gegevensstroom, Azure Function, Spark en andere activiteiten die kunnen worden toegevoegd aan pijplijnen, afzonderlijk of gekoppeld aan een andere activiteit.
  • Controleactiviteiten: Voorbeelden van controlestroomactiviteiten zijn 'get metadata', 'For Each' en 'Execute Pipeline'.

Activiteiten kunnen van elkaar afhankelijk zijn. Wat we bedoelen, is dat de activiteitsafhankelijkheid bepaalt hoe volgende activiteiten afhankelijk zijn van eerdere activiteiten. De afhankelijkheid zelf kan worden gebaseerd op een voorwaarde om door te gaan met de uitvoering van eerdere gedefinieerde activiteiten om een taak te voltooien. Een activiteit die afhankelijk is van een of meer eerdere activiteiten, kan verschillende afhankelijkheidsvoorwaarden hebben.

De vier afhankelijkheidsvoorwaarden zijn:

  • Geslaagd
  • Mislukt
  • Overgeslagen
  • Voltooid

Als een pijplijn bijvoorbeeld een activiteit A heeft, gevolgd door een activiteit B en activiteit B als een afhankelijkheidsvoorwaarde voor activiteit A geslaagd, wordt activiteit B alleen uitgevoerd als Activiteit A de status geslaagd heeft.

Als een pijplijn meerdere activiteiten bevat en latere activiteiten niet afhankelijk zijn van de vorige activiteiten, kunnen de activiteiten parallel worden uitgevoerd.