Wat is Azure Data Factory?

Voltooid

Laten we beginnen met een overzicht van Azure Data Factory om te bepalen of het een goede keuze is voor het organiseren van uw gegevens om zakelijke inzichten te creëren.

Azure Data Factory is een cloudgebaseerde etl-service (extract, transform, load) en gegevensintegratieservice waarmee u gegevensgestuurde werkstromen kunt maken voor:

  • Gegevensverplaatsing organiseren.
  • Gegevens op schaal transformeren.

Notitie

Gegevensgestuurde werkstromen worden ook wel pijplijnen genoemd.

Met behulp van Azure Data Factory kunt u onbewerkte gegevens opnieuw ordenen in zinvolle gegevensarchieven en data lakes, zodat u betere zakelijke beslissingen kunt nemen.

Wat is gegevensanalyse?

Gegevensanalyse is het proces van het verzamelen van onbewerkte gegevens en het onderzoeken ervan om daaruit conclusies te trekken. Dit proces kan lastig zijn als de gegevens zich op meerdere locaties bevinden, zoals gehoste databases en on-premises locaties.

Tip

Onbewerkte gegevens zijn gegevens die zijn verzameld uit een bron en die niet zijn verwerkt. Dit wordt soms niet-georganiseerde gegevens genoemd.

Azure biedt verschillende technologieën die u kunt implementeren om u te helpen met de gegevensanalyse van uw organisatie, waaronder:

  • Azure Synapse Analytics
  • Azure Blob-opslag
  • Azure Data Lake Storage
  • Azure Data Lake Analytics
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

U kunt zo nodig enkele of al deze services gebruiken om de gegevens van uw organisatie te analyseren. Geen van deze services heeft echter betrekking op gegevensintegratie. Met gegevensintegratie kunt u gegevens uit meerdere bronnen verzamelen en deze gecombineerde gegevens vervolgens laden naar een locatie die geschikt is voor gegevensanalyse. Indien nodig kunt u de gegevens tijdens dit proces transformeren. Hoewel u deze taken handmatig kunt uitvoeren, kunt u overwegen Om Azure Data Factory te gebruiken.

Azure Data Factory-definitie

Azure Data Factory is een cloudservice voor gegevensintegratie die is ontworpen om tegemoet te komen aan de behoeften van twee specifieke community's, zoals beschreven in de volgende tabel:

Community Beschrijving van de behoeften van de community
Big data-community Deze community is afhankelijk van technologieën voor het beheren van grote hoeveelheden verschillende gegevens. Voor hen biedt Azure Data Factory een middel om pijplijnen in de cloud te maken en uit te voeren. Deze pijplijnen hebben toegang tot zowel cloud- als on-premises gegevensservices. Deze pijplijnen werken doorgaans met technologieën zoals Azure Synapse Analytics, Azure Blobs en Azure Data Lake. Ook Azure HDInsight, Azure Databricks en Azure Machine Learning.
Relationele datawarehousingcommunity Deze community is doorgaans afhankelijk van technologieën zoals Microsoft SQL Server. SQL Server Integration Services (SSIS) wordt vaak gebruikt om SSIS-pakketten te maken. Azure Data Factory biedt deze community de mogelijkheid om SSIS-pakketten uit te voeren in Azure, zodat ze toegang hebben tot zowel cloud- als on-premises gegevensservices.

Notitie

Een pakket is vergelijkbaar met een Azure Data Factory-pijplijn. Elk pakket definieert een proces voor het extraheren, laden, transformeren of anderszins werken met gegevens.

Het belangrijkste punt is dat Azure Data Factory één cloudservice is voor gegevensintegratie. Het biedt één set hulpprogramma's en een gemeenschappelijke beheerinterface voor al uw gegevensintegratie, die al uw gegevensbronnen ondersteunt, waar ze zich ook bevinden:

  • Azure
  • On-premises
  • Een openbaar cloudplatform van derden

Hoe Azure Data Factory kan helpen met gegevensanalyse

Met behulp van Azure Data Factory kunt u het volgende doen:

  • Complexe ETL-processen bouwen. Deze processen kunnen gegevens visueel transformeren met behulp van gegevensstromen of rekenservices zoals:

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Azure SQL-database
  • Publiceer deze getransformeerde gegevens naar gegevensarchieven zodat business intelligence-apps deze kunnen gebruiken.

In de volgende afbeelding zijn externe gegevensbronnen verbonden met Azure Data Factory. Een opslagblob wordt gebruikt om de gegevens op te nemen, terwijl Azure Synapse Analytics wordt gebruikt als opslag. Deze elementen bieden de indeling. De analyse- en visualisatieonderdelen, Azure Analysis Service en Power BI zijn ook verbonden met Azure Data Factory.

Afbeelding van een mogelijke architectuur voor het gebruik van Azure Data Factory.

Tip

Azure Data Factory biedt meer dan 90 ingebouwde, onderhoudsvrije connectors.