Gegevensagnostische verwerkingsmachine

Artikel
12/13/2024

In dit artikel wordt uitgelegd hoe u gegevensagnostische opname-enginescenario's kunt implementeren met behulp van een combinatie van PowerApps-, Azure Logic Apps- en metagegevensgestuurde kopieertaken binnen Azure Data Factory.

Scenario's voor data-agnostische invoerengine zijn doorgaans gericht op het laten publiceren van niet-technische (niet-data-engineer) gebruikers databronnen in een Data Lake voor verdere verwerking. Als u dit scenario wilt implementeren, moet u onboardingmogelijkheden hebben die het volgende inschakelen:

Registratie van gegevensbestanden
Werkstroominrichting en metagegevens vastleggen
Gegevensinnameplanning

U kunt zien hoe deze mogelijkheden werken:

diagram van mogelijkheden voor gegevensregistratie en interacties

afbeelding 1: Interacties tussen gegevensregistratiemogelijkheden.

In het volgende diagram ziet u hoe u dit proces implementeert met behulp van een combinatie van Azure-services:

diagram van een gegevensagnostisch engineopnameproces

afbeelding 2: Geautomatiseerd opnameproces.

Registratie van gegevensbestanddelen

Als u de metagegevens wilt opgeven die worden gebruikt om geautomatiseerde opname te stimuleren, hebt u registratie van gegevensassets nodig. De gegevens die u vastlegt, bevatten:

Technische informatie: Naam van de data asset, bronsysteem, type, formaat en frequentie.
Governance-informatie: eigenaar, beheerders, zichtbaarheid (voor ontdekkingsdoeleinden) en gevoeligheid.

PowerApps wordt gebruikt om metagegevens vast te leggen die elke gegevensasset beschrijven. Gebruik een modelgestuurde app om de informatie in te voeren die wordt bewaard in een aangepaste Dataverse-tabel. Wanneer metagegevens worden gemaakt of bijgewerkt in Dataverse, wordt er een geautomatiseerde cloudstroom geactiveerd die verdere verwerkingsstappen aanroept.

diagram van een gegevensassetregistratie.

afbeelding 3: Registratie van gegevensassets.

Werkstroom inrichten/metagegevens vastleggen

Tijdens de inrichtingsfase valideert en slaat u gegevens op die zijn verzameld in de registratiefase in de metastore. Zowel technische als bedrijfsvalidatiestappen worden uitgevoerd, waaronder:

Validatie van invoergegevensfeed
Goedkeuringswerkstroom activeren
Logische verwerking om persistentie van metagegevens naar het metagegevensarchief te activeren
Activiteitscontrole

diagram van de registratiewerkstroom

afbeelding 4: Registratiewerkstroom.

Nadat opnameaanvragen zijn goedgekeurd, gebruikt de werkstroom de Microsoft Purview REST API om de bronnen in Microsoft Purview in te voegen.

Gedetailleerde werkstroom voor de introductie van dataproducten

diagram waarin wordt getoond hoe nieuwe gegevenssets worden opgenomen (geautomatiseerd)

afbeelding 5: Hoe nieuwe gegevenssets worden opgenomen (geautomatiseerd).

Afbeelding 5 toont het gedetailleerde registratieproces voor het automatiseren van de opname van nieuwe gegevensbronnen:

Brondetails worden geregistreerd, inclusief productie- en data factory-omgevingen.
Beperkingen voor gegevensvormen, formaat en kwaliteit worden vastgelegd.
Gegevenstoepassingenteams moeten aangeven of gegevens gevoelige (persoonlijke gegevens) zijn. Deze classificatie bepaalt het proces waarin data lake-mappen worden gemaakt om onbewerkte, verrijkte en gecureerde gegevens op te nemen. De bronnen noemen onbewerkte en verrijkte gegevens en de gegevensproducten noemen deze gecureerde gegevens.
Service-principal- en beveiligingsgroepen worden gemaakt voor opname en toegang tot een gegevensset.
Er wordt een opnametaak gemaakt in de datalandingszone van de Data Factory-metastore.
Met een API wordt de gegevensdefinitie ingevoegd in Microsoft Purview.
Afhankelijk van de validatie van de gegevensbron en goedkeuring door het ops-team, worden details gepubliceerd naar een Data Factory-metastore.

Verwerkingsplanning

Binnen Azure Data Factory bieden metagegevensgestuurde kopieertaken functionaliteit waarmee indelingspijplijnen kunnen worden aangestuurd door rijen in een besturingstabel die is opgeslagen in Azure SQL Database. U kunt het hulpprogramma Copy Data gebruiken om vooraf metagegevensgestuurde pijplijnen te maken.

Nadat een pijplijn is gemaakt, voegt uw voorzieningsworkflow vermeldingen toe aan de besturingstabel om het inladen te ondersteunen van gegevensbronnen die zijn geïdentificeerd door de metagegevens van de gegevensassetregistratie. De Azure Data Factory-pijplijnen en de Azure SQL Database met uw metastore voor besturingstabellen kunnen beide bestaan binnen elke gegevenslandingszone om nieuwe gegevensbronnen te maken en ze op te nemen in landingszones voor gegevens.

diagram van de planning van gegevensinvoer

Afbeelding 6: Planning van opname van data-assets.

Gedetailleerde werkstroom voor het opnemen van nieuwe gegevensbronnen

In het volgende diagram ziet u hoe u geregistreerde gegevensbronnen ophaalt in een Data Factory SQL Database-metastore en hoe gegevens voor het eerst worden opgenomen:

diagram van hoe nieuwe gegevensbronnen worden opgenomen

Uw Data Factory-opnamehoofdpijplijn leest configuraties uit een Data Factory SQL Database-metastore en wordt vervolgens iteratief uitgevoerd met de juiste parameters. Gegevens worden van de bron naar de onbewerkte laag in Azure Data Lake verzonden met weinig tot geen wijzigingen. De data-structuur wordt gevalideerd op basis van uw Data Factory metastore. Bestandsindelingen worden omgezet naar Apache Parquet of Avro en vervolgens gekopieerd naar de verrijkte laag.

Gegevens die worden opgenomen, maken verbinding met een Azure Databricks-werkruimte voor gegevenswetenschap en engineering en er wordt een gegevensdefinitie gemaakt in de Apache Hive-metastore voor gegevenslandingszone.

Als u een serverloze SQL-pool van Azure Synapse moet gebruiken om gegevens beschikbaar te maken, moet uw aangepaste oplossing weergaven maken over de gegevens in de lake.

Als u versleuteling op rij- of kolomniveau nodig hebt, moet uw aangepaste oplossing gegevens in uw data lake landen en gegevens rechtstreeks opnemen in interne tabellen in de SQL-pools en de juiste beveiliging instellen voor de berekening van de SQL-pools.

Vastgelegde metagegevens

Wanneer u geautomatiseerde gegevensopname gebruikt, kunt u een query uitvoeren op de bijbehorende metagegevens en dashboards maken om:

Taken en de meest recente tijdstempels voor het laden van gegevens bijhouden voor gegevensproducten die betrekking hebben op hun functies.
Beschikbare gegevensproducten bijhouden.
Gegevensvolumes vergroten.
Ontvang realtime updates over taakfouten.

Operationele metagegevens kunnen worden gebruikt om het volgende bij te houden:

Taken, taakstappen en hun afhankelijkheden.
Taakprestaties en prestatiegeschiedenis.
Groei van gegevensvolume.
Taakmislukkingen.
Wijzigingen in bronmetagegevens.
Bedrijfsfuncties die afhankelijk zijn van gegevensproducten.

De Microsoft Purview REST API gebruiken om gegevens te detecteren

Microsoft Purview REST API's moeten worden gebruikt om gegevens te registreren tijdens de eerste opname. U kunt de API's gebruiken om gegevens snel na opname naar uw gegevenscatalogus te verzenden.

Zie voor meer informatie het gebruik van Microsoft Purview REST API's.

Gegevensbronnen registreren

Gebruik de volgende API-aanroep om nieuwe gegevensbronnen te registreren:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

URI-parameters voor de gegevensbron:

Naam	Vereist	Type	Beschrijving
`accountName`	Waar	Snaar	Naam van het Microsoft Purview-account
`dataSourceName`	Waar	Snaar	Naam van de gegevensbron

De Microsoft Purview REST API gebruiken voor registratie

In de volgende voorbeelden ziet u hoe u de Microsoft Purview REST API gebruikt om gegevensbronnen te registreren met behulp van gegevenspayloads.

Een Azure Data Lake Storage Gen2-gegevensbron registreren:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Een SQL Database-gegevensbron registreren:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Notitie

Het <collection-name>is een actuele verzameling die zich bevindt in een Microsoft Purview-account.

Een scan maken

Ontdek hoe u referenties kunt maken om bronnen in Microsoft Purview te verifiëren voordat u een scan instelt en uitvoert.

Gebruik de volgende API-aanroep om gegevensbronnen te scannen:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

URI-parameters voor een scan:

Naam	Vereist	Soort	Beschrijving
`accountName`	Waar	Snaar	Naam van het Microsoft Purview-account
`dataSourceName`	Waar	Snaar	Naam van de gegevensbron
`newScanName`	Waar	Snaar	Naam van de nieuwe scan

De Microsoft Purview REST API gebruiken voor scannen

In de volgende voorbeelden ziet u hoe u de Microsoft Purview REST API kunt gebruiken om gegevensbronnen met payloads te scannen:

Een Azure Data Lake Storage Gen2-gegevensbron scannen:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

een SQL Database-gegevensbron scannen:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Gebruik de volgende API-aanroep om gegevensbronnen te scannen:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Volgende stappen

Overzicht van Azure Data Lake Storage voor analyses op cloudschaal

Delen via