Pijplijnen voor gegevensopname verkennen

Voltooid

Nu u een beetje begrijpt over de architectuur van een grootschalige oplossing voor datawarehousing en een aantal gedistribueerde verwerkingstechnologieën die kunnen worden gebruikt voor het verwerken van grote hoeveelheden gegevens, is het tijd om te verkennen hoe gegevens worden opgenomen in een analytische gegevensopslag uit een of meer bronnen.

Diagram van een pijplijn.

In Azure is grootschalige gegevensopname het beste geïmplementeerd door pijplijnen te maken die ETL-processen organiseren. U kunt pijplijnen maken en uitvoeren met behulp van Azure Data Factory of u kunt de pijplijnmogelijkheid in Microsoft Fabric gebruiken als u alle onderdelen van uw datawarehousingoplossing in een geïntegreerde werkruimte wilt beheren.

In beide gevallen bestaan pijplijnen uit een of meer activiteiten die op gegevens werken. Een invoergegevensset biedt de brongegevens en activiteiten kunnen worden gedefinieerd als een gegevensstroom die de gegevens incrementeel bewerkt totdat een uitvoergegevensset wordt geproduceerd. Pijplijnen gebruiken gekoppelde services om gegevens te laden en te verwerken, zodat u voor elke stap van de werkstroom de juiste technologie kunt gebruiken. U kunt bijvoorbeeld een gekoppelde Azure Blob Store-service gebruiken om de invoergegevensset op te nemen en vervolgens services zoals Azure SQL Database gebruiken om een opgeslagen procedure uit te voeren die gerelateerde gegevenswaarden opzoekt, voordat u een gegevensverwerkingstaak uitvoert in Azure Databricks of aangepaste logica toepast met behulp van een Azure-functie. Ten slotte kunt u de uitvoergegevensset opslaan in een gekoppelde service, zoals Microsoft Fabric. Pijplijnen kunnen ook enkele ingebouwde activiteiten bevatten, waarvoor geen gekoppelde service is vereist.