Datenagnostische Erfassungsmodul

Artikel
01/24/2025

In diesem Artikel wird erläutert, wie Sie in Azure Data Factory datenagnostische Ingestion Engine-Szenarien mithilfe einer Kombination aus PowerApps, Azure Logic Apps und metadatengesteuerten Kopieraufgaben implementieren können.

Datenagnostische Erfassungsmodulszenarios konzentrieren sich in der Regel auf die Möglichkeit, nicht technische (nicht datentechnische) Benutzer*innen Datenressourcen in einem Data Lake für die weitere Verarbeitung zu veröffentlichen. Um dieses Szenario zu implementieren, müssen Sie über Onboardingfunktionen verfügen, die Folgendes aktivieren:

Datenobjektregistrierung
Workflowbereitstellung und Metadatenerfassung
Erfassungsplanung

Sie können sehen, wie diese Funktionen interagieren:

Diagramm der Datenregistrierungsfunktionen und Interaktionen

Abbildung 1: Interaktionen mit Datenregistrierungsfunktionen.

Das folgende Diagramm zeigt, wie Sie diesen Prozess mithilfe einer Kombination von Azure-Diensten implementieren:

Diagramm des Prozesses eines datenagnostischen Erfassungsmoduls

Abbildung 2: Automatisierter Erfassungsprozess.

Datenobjektregistrierung

Um die Metadaten bereitzustellen, die zum Steuern der automatisierten Erfassung verwendet werden, benötigen Sie die Registrierung von Datenobjekten. Die erfassten Informationen enthalten:

Technische Informationen: Datenobjektname, Quellsystem, Typ, Format und Häufigkeit.
Governanceinformationen: Besitzer*in, Verwalter*innen, Sichtbarkeit (zur Ermittlung) und Vertraulichkeit.

PowerApps wird verwendet, um Metadaten zu erfassen, die jede Datenressource beschreiben. Verwenden Sie eine modellgesteuerte App, um die Informationen einzugeben, die in einer benutzerdefinierten Dataverse-Tabelle beibehalten werden. Wenn Metadaten innerhalb von Dataverse erstellt oder aktualisiert werden, löst sie einen automatisierten Cloudfluss aus, der weitere Verarbeitungsschritte aufruft.

Diagramm einer Datenobjektregistrierung.

Abbildung 3: Registrierung von Datenobjekten.

Bereitstellungsworkflow/Metadatenerfassung

In der Bereitstellungsworkflowstufe überprüfen und beibehalten Sie Daten, die in der Registrierungsstufe im Metastore gesammelt wurden. Sowohl technische als auch geschäftliche Validierungsschritte werden ausgeführt, einschließlich:

Überprüfung des Eingabedatenfeeds
Auslösen des Genehmigungsworkflows
Logikverarbeitung zum Auslösen der Persistenz von Metadaten im Metadatenspeicher
Aktivitätsüberwachung

Diagramm des Registrierungsworkflows

Abbildung 4: Registrierungsworkflow.

Nachdem die Erfassungsanforderungen genehmigt wurden, verwendet der Workflow die Microsoft Purview-REST-API, um die Quellen in Microsoft Purview einzufügen.

Detaillierter Workflow für Onboarding-Datenprodukte

Diagramm: Erfassung neuer Datasets (automatisiert) aufgenommen werden

Abbildung 5: Wie neue Datensätze aufgenommen werden (automatisiert).

Abbildung 5 zeigt den detaillierten Registrierungsprozess zum Automatisieren der Erfassung neuer Datenquellen:

Quellendetails werden registriert, einschließlich Produktions- und Data Factory-Umgebungen.
Datenstruktur-, Format- und Qualitätseinschränkungen werden erfasst.
Datenanwendungsteams sollten angeben, ob es sich um sensible Daten handelt (personenbezogene Daten). Diese Klassifizierung bestimmt den Prozess, in dem Data Lake-Ordner erstellt werden, um Rohdaten, angereicherte und kuratierte Daten zu erfassen. Die Quellnamen nennen rohe und angereicherte Daten und die Datenproduktnamen kuratierte Daten.
Dienstprinzipal- und Sicherheitsgruppen werden zum Erfassen und Erteilen des Zugriffs auf ein Dataset erstellt.
Ein Erfassungsauftrag wird in der Datenzielzone Data Factory Metastore erstellt.
Eine API fügt die Datendefinition in Microsoft Purview ein.
Abhängig von der Validierung der Datenquelle und der Genehmigung durch das Betriebsteam werden Details in einem Data Factory Metastore veröffentlicht.

Erfassungsplanung

Innerhalb von Azure Data Factory bieten metadatengesteuerte Kopieraufgaben Funktionen, mit denen die Orchestrierungspipelines von Zeilen innerhalb einer in Azure SQL-Datenbank gespeicherten Steuertabelle gesteuert werden können. Sie können das Tool zum Kopieren von Daten verwenden, um metadatengesteuerte Pipelines vorab zu erstellen.

Nachdem eine Pipeline erstellt wurde, fügt Ihr Bereitstellungsworkflow Einträge zur Steuertabelle hinzu, um die Erfassung aus Quellen zu unterstützen, die durch die Metadaten zur Registrierung von Datenobjekten identifiziert wurden. Die Pipelines der Azure Data Factory und die Azure SQL-Datenbank, die Ihren Steuertabellen-Metastore enthalten, können beide innerhalb jeder Datenzielzone vorhanden sein, um neue Datenquellen zu erstellen und sie in Datenzielzonen zu erfassen.

Diagramm: Planung der Datenobjekterfassung

Abbildung 6: Planung der Datenobjekterfassung.

Detaillierter Workflow zum Aufnehmen neuer Datenquellen

Das folgende Diagramm zeigt, wie registrierte Datenquellen in einem SQL-Datenbankmetastore der Data Factory abgerufen werden und wie Daten zuerst aufgenommen werden:

Diagramm, wie neue Datenquellen aufgenommen werden

Ihre Data Factory-Eingabe-Hauptpipeline liest Konfigurationen aus einem SQL-Datenbankmetastore der Data Factory, dann läuft sie iterativ mit den richtigen Parametern. Daten werden von der Quelle in die Rohschicht in Azure Data Lake mit wenig bis gar keiner Änderung bewegt. Die Datenform wird basierend auf Ihrem Data Factory-Metastore überprüft. Die Dateiformate werden entweder in das Apache Parquet- oder das Avro-Format konvertiert und dann in die angereicherte Ebene kopiert.

Die erfassten Daten werden mit einem Azure Databricks Data Science and Engineering Workspace verbunden, und eine Datendefinition wird in der Datenzielzone Apache Hive Metastore erstellt.

Wenn Sie einen Azure Synapse serverlosen SQL Pool verwenden müssen, um Daten verfügbar zu machen, sollte Ihre benutzerdefinierte Lösung Ansichten über die Daten im Lake erstellen.

Wenn Sie die Verschlüsselung auf Zeilenebene oder Spaltenebene benötigen, sollte Ihre benutzerdefinierte Lösung Daten in Ihrem Data Lake landen, und Daten direkt in interne Tabellen in den SQL-Pools erfassen und entsprechende Sicherheit für die SQL-Pools einrichten.

Erfasste Metadaten

Wenn Sie die automatisierte Datenaufnahme verwenden, können Sie die zugehörigen Metadaten abfragen und Dashboards erstellen, um:

Verfolgen Sie Aufträge und neueste Datenlade-Zeitstempel für Datenprodukte im Zusammenhang mit ihren Funktionen nach.
Nachverfolgen verfügbarer Datenprodukte.
Vergrößern Sie Datenvolumina.
Erhalten Sie Echtzeitupdates zu Auftragsfehlern.

Betriebsmetadaten können zur Nachverfolgung verwendet werden:

Aufträge, Auftragsschritte und ihre Abhängigkeiten.
Arbeitsleistung und Leistungshistorie.
Datenvolumenwachstum.
Auftragsfehler.
Änderungen der Quellmetadaten.
Geschäftsfunktionen, die von Datenprodukten abhängen.

Verwenden Sie die REST-API von Microsoft Purview, um Daten zu ermitteln

Microsoft Purview-REST-APIs sollten zum Registrieren von Daten während der ersten Datenaufnahme verwendet werden. Sie können die APIs verwenden, um Daten kurz nachdem sie aufgenommen wurden in Ihren Datenkatalog zu übermitteln.

Weitere Informationen finden Sie unter Wie man Microsoft Purview-REST-APIs verwendet.

Registrieren von Datenquellen

Verwenden Sie den folgenden API-Aufruf, um neue Datenquellen zu registrieren:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

URI-Parameter für die Datenquelle:

Name	Erforderlich	Typ	Beschreibung
`accountName`	Wahr	Zeichenfolge	Name des Microsoft Purview-Kontos
`dataSourceName`	Wahr	Zeichenfolge	Name der Datenquelle

Verwenden Sie die REST-API von Microsoft Purview für die Registrierung

Die folgenden Beispiele zeigen, wie Sie die Microsoft Purview-REST-API zum Registrieren von Datenquellen mit Nutzlasten verwenden:

Registrieren einer Azure Data Lake Storage Gen2-Datenquelle:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Registrieren einer SQL-Datenbankdatenquelle:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Anmerkung

<collection-name> ist eine aktuelle Sammlung, die in einem Microsoft Purview-Konto vorhanden ist.

Einen Scan erstellen

Erfahren Sie, wie Sie Anmeldeinformationen zum Authentifizieren von Quellen in Microsoft Purview erstellen können, bevor Sie einen Scan einrichten und ausführen.

Verwenden Sie den folgenden API-Aufruf zum Scannen von Datenquellen:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

URI-Parameter für einen Scan:

Name	Erforderlich	Typ	Beschreibung
`accountName`	Wahr	Zeichenfolge	Name des Microsoft Purview-Kontos
`dataSourceName`	Wahr	Zeichenfolge	Name der Datenquelle
`newScanName`	Wahr	Zeichenfolge	Name des neuen Scans

Verwenden Sie die REST-API von Microsoft Purview zum Scannen.

Die folgenden Beispiele zeigen, wie Sie die Microsoft Purview REST-API verwenden können, um Datenquellen mit Nutzlasten zu scannen:

Azure Data Lake Storage Gen2 Datenquelle scannen:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Scannen einer SQL-Datenbankdatenquelle:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Verwenden Sie den folgenden API-Aufruf zum Scannen von Datenquellen:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Nächste Schritte

Übersicht über Azure Data Lake Storage für Cloud-Skalierungsanalysen

Freigeben über