Datenagnostische Erfassungsmodul
In diesem Artikel wird erläutert, wie Sie Daten agnostische Erfassungsmodulszenarien mithilfe einer Kombination aus PowerApps, Azure Logic Apps und metadatengesteuerten Kopieraufgaben innerhalb Azure Data Factory implementieren können.
Datenagnostische Erfassungsmodulszenarios konzentrieren sich in der Regel auf die Möglichkeit, nicht technische (nicht datentechnische) Benutzer Datenressourcen in einem Data Lake für die weitere Verarbeitung zu veröffentlichen. Um dieses Szenario zu implementieren, müssen Sie Onboardingfunktionen haben, die Folgendes aktivieren:
- Datenobjektregistrierung
- Workflowbereitstellung und Metadatenerfassung
- Erfassungsplanung
Sie können sehen, wie diese Funktionen interagieren:
Abbildung 1: Interaktionen mit Datenregistrierungsfunktionen.
Das folgende Diagramm zeigt, wie Sie diesen Prozess mithilfe einer Kombination von Azure-Diensten implementieren:
Abbildung 2: Automatisierter Erfassnugsprozess.
Datenobjektregistrierung
Um die Metadaten bereitzustellen, die zum Steuern automatisierter Erfassung verwendet werden, benötigen Sie die Datenobjektregistrierung. Die von Ihnen erfassten Informationen enthalten:
- Technische Informationen: Name des Datenobjekts, Quellsystem, Typ, Format und Häufigkeit.
- Governance-Informationen: Besitzer, Stewards, Sichtbarkeit (für Ermittlungszwecke) und Vertraulichkeit.
PowerApps wird verwendet, um Metadaten zu erfassen, die jede Datenressource beschreiben. Verwenden Sie eine modellgesteuerte App, um die Informationen einzugeben, die in einer benutzerdefinierten Dataverse-Tabelle beibehalten werden. Wenn Metadaten innerhalb von Dataverse erstellt oder aktualisiert werden, löst er einen automatisierten Cloudfluss aus, der weitere Verarbeitungsschritte aufruft.
Abbildung 3: Registrierung von Datenobjekten.
Bereitstellen von Workflow-/Metadatenaufnahme
In der Bereitstellungsworkflowphase überprüfen und beibehalten Sie Daten, die in der Registrierungsphase im Metastore gesammelt wurden. Sowohl technische als auch geschäftliche Überprüfungsschritte werden ausgeführt, einschließlich:
- Eingabedatenfeedüberprüfung
- Auslösen des Genehmigungsworkflows
- Logikverarbeitung zum Auslösen der Persistenz von Metadaten im Metadatenspeicher
- Aktivitätsüberwachung
Abbildung 4: Registrierungsworkflow.
Sobald Erfassungsanforderungen genehmigt wurden, wird vom Workflow Azure Purview-REST-API verwendet, um die Quellen in Azure Purview einzufügen.
Detaillierter Workflow für Onboarding-Datenprodukte
Abbildung 5: Wie neue Datasets erfasst werden (automatisch).
Abbildung 5 zeigt den detaillierten Registrierungsprozess für die Automatisierung der Aufnahme neuer Datenquellen:
- Quelldetails werden registriert, einschließlich Produktions- und Data Factory Umgebungen.
- Datenform-, Format- und Qualitätseinschränkungen werden erfasst.
- Datenanwendungsteams sollten angeben, ob es sich um sensible Daten handelt (personenbezogene Daten). Diese Klassifizierung bestimmt den Prozess, in dem Data Lake-Ordner erstellt werden, um Rohdaten, angereicherte und kuratierte Daten aufzunehmen. Die Quelle benennt Rohdaten und angereicherte Daten und das Datenprodukt benennt gepflegte Daten.
- Dienstprinzipal- und Sicherheitsgruppen werden zum Erfassen und Erteilen des Zugriffs auf ein Dataset erstellt.
- Ein Erfassungsauftrag wird in der Datenzielzone Data Factory Metastore erstellt.
- Eine API fügt die Datendefinition in Azure Purview ein.
- Abhängig von der Validierung der Datenquelle und der Genehmigung durch das Betriebsteam werden Details in einem Data Factory Metastore veröffentlicht.
Erfassungsplanung
Innerhalb von Azure Data Factory bieten metadatengesteuerte Kopieraufgaben Funktionen, mit denen die Orchesterpipelines von Zeilen innerhalb einer in Azure SQL-Datenbank gespeicherten Steuerelementtabelle gesteuert werden können. Sie können das Kopierdatentool verwenden, um metadatengesteuerte Pipelines vorab zu erstellen.
Nachdem eine Pipeline erstellt wurde, fügt Ihr Bereitstellungsworkflow Einträge zur Steuerungstabelle hinzu, um die Aufnahme von Quellen zu unterstützen, die durch die Datenobjektregistrierungsmetadaten identifiziert werden. Die Azure Data Factory Pipelines und die Azure SQL-Datenbank, die Ihren Control Table-Metastore enthalten, können sowohl innerhalb jeder Datenzielzone vorhanden sein, um neue Datenquellen zu erstellen und sie in Datenzielzonen aufzunehmen.
Abbildung 6: Planen von Datenobjekterfassung.
Detaillierter Workflow zum Erfassen neuer Datenquellen
Das folgende Diagramm zeigt, wie registrierte Datenquellen in einen Data Factory SQL-Datenbank-Metaspeicher gezogen werden können und wie die Daten zunächst aufgenommen werden:
Ihre Data Factory Erfassungs-Masterpipeline liest Konfigurationen aus einem Data Factory SQL-Datenbank Metastore und wird anschließend iterativ mit den richtigen Parametern ausgeführt. Die Daten werden von der Quelle bis zur Rohdatenebene in Azure Data Lake wenig oder gar nicht verändert. Die Datenform wird basierend auf Ihrem Data Factory-Metastore überprüft. Die Dateiformate werden entweder in das Apache Parquet- oder das Avro-Format konvertiert und dann in die angereicherte Ebene kopiert.
Die erfassten Daten werden mit einem Azure Databricks Data Science and Engineering Workspace verbunden, und eine Datendefinition wird in der Datenzielzone Apache Hive Metastore erstellt.
Wenn Sie einen Azure Synapse serverlosen SQL Pool verwenden müssen, um Daten verfügbar zu machen, sollte Ihre benutzerdefinierte Lösung Ansichten über die Daten im Lake erstellen.
Wenn Sie die Verschlüsselung auf Zeilenebene oder Spaltenebene benötigen, sollte Ihre benutzerdefinierte Lösung Daten in Ihrem Data Lake landen, und Daten direkt in interne Tabellen in den SQL Pools aufnehmen und entsprechende Sicherheit für die SQL Pools einrichten.
Aufgezeichnete Metadaten
Wenn Sie automatisierte Datenerfassung verwenden, können Sie die zugeordneten Metadaten abfragen und Dashboards erstellen, um Folgendes zu tun:
- Aufträge und die neuesten Datenlade-Zeitstempel für Datenprodukte im Zusammenhang mit ihren Funktionen nachzuverfolgen.
- Nachverfolgen verfügbarer Datenprodukte.
- Datenvolumina anwachsen zu lassen.
- Echtzeitupdates zu Auftragsfehlern zu erhalten.
Operative Metadaten können verwendet werden, um nachzuverfolgen:
- Aufträge, Auftragsschritte und ihre Abhängigkeiten.
- Auftragsleistung und Leistungsverlauf.
- Wachstum des Datenvolumens.
- Auftragsfehler.
- Änderungen an den Quellmetadaten.
- Geschäftsfunktionen, die von Datenprodukten abhängen.
Verwenden Sie Azure Purview-REST-API zum Ermitteln von Daten
Azure Purview REST APIs sollten verwendet werden, um Daten während der ersten Erfassung zu registrieren. Sie können die APIs verwenden, um Daten kurz nach der Aufnahme in Ihren Datenkatalog zu übermitteln.
Weitere Informationen finden Sie unter Verwenden von Azure Purview-REST-APIs.
Registrieren von Datenquellen
Verwenden Sie den folgenden API-Aufruf, um neue Datenquellen zu registrieren:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}
URI Parameter für die Datenquelle:
Name | Erforderlich | Type | Beschreibung |
---|---|---|---|
accountName |
True | String | Name des Azure Purview-Kontos |
dataSourceName |
True | String | Name der Datenquelle |
Verwenden Sie Azure Purview-REST-API zur Registrierung
Die folgenden Beispiele zeigen, wie Sie die Azure Purview-REST-API verwenden, um Datenquellen mit Nutzlasten zu registrieren:
Registrieren einer Azure Data Lake Storage Gen2 Datenquelle:
{
"kind":"AdlsGen2",
"name":"<source-name> (for example, My-AzureDataLakeStorage)",
"properties":{
"endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Registrieren einer SQL-Datenbank als Datenquelle :
{
"kind":"<source-kind> (for example, AdlsGen2)",
"name":"<source-name> (for example, My-AzureSQLDatabase)",
"properties":{
"serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Hinweis
<collection-name>
ist eine aktuelle Sammlung, die in einem Azure Purview-Konto vorhanden ist.
Einen Scan erstellen
Erfahren Sie, wie Sie Anmeldeinformationen zum Authentifizieren von Quellen in Azure Purview erstellen können, bevor Sie einen Scan einrichten und ausführen.
Verwenden Sie den folgenden API-Aufruf, um Datenquellen zu scannen:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/
URI-Parameters für einen Scan:
Name | Erforderlich | Type | Beschreibung |
---|---|---|---|
accountName |
True | String | Name des Azure Purview-Kontos |
dataSourceName |
True | String | Name der Datenquelle |
newScanName |
True | String | Name des neuen Scan |
Verwenden Sie Azure Purview-REST-API zum Scannen
Die folgenden Beispiele zeigen, wie Sie die Azure Purview-REST-API verwenden, um Datenquellen mit Nutzlasten zu registrieren:
Scannen einer Azure Data Lake Storage Gen2-Datenquelle:
{
"name":"<scan-name>",
"kind":"AdlsGen2Msi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AdlsGen2"
}
}
Scannen einer SQL-Datenbank als Datenquelle:
{
"name":"<scan-name>",
"kind":"AzureSqlDatabaseMsi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AzureSqlDatabase",
"databaseName": "<database-name>",
"serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
}
}
Verwenden des folgenden API-Aufrufs zum Scannen von Datenquellen:
POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run