Konfigurieren und Ausführen der Datenqualitätsüberprüfung
Datenqualitätsscans überprüfen Ihre Datenressourcen basierend auf den angewendeten Datenqualitätsregeln und erzeugen eine Bewertung. Ihre Data Stewards können diese Bewertung verwenden, um die Datenintegrität zu bewerten und alle Probleme zu beheben, die die Qualität Ihrer Daten verringern könnten.
Voraussetzungen
- Um Überprüfungen zur Datenqualitätsbewertung ausführen und planen zu können, müssen Ihre Benutzer in der Data Quality Steward-Rolle sein.
- Derzeit kann das Microsoft Purview-Konto so festgelegt werden, dass öffentlicher Zugriff oder verwalteter VNET-Zugriff zugelassen wird, damit Datenqualitätsüberprüfungen ausgeführt werden können.
Lebenszyklus der Datenqualität
Die Überprüfung der Datenqualität ist der siebte Schritt des Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:
- Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
- Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
- Hinzufügen Ihrer Datenressource zu einem Datenprodukt
- Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
-
Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
- Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
- Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
Unterstützte Multi-Cloud-Datenquellen
- Azure Data Lake Storage (ADLS Gen2)
- Dateitypen: Delta Parquet und Parquet
- Azure SQL-Datenbank
- Die Fabric-Datenumgebung in OneLake umfasst Verknüpfungen und Spiegelungsdaten. Die Data Quality-Überprüfung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
- Spiegelungsdatenbestand: CosmosDB, Snowflake, Azure SQL
- Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
- Azure Synapse serverlos und Data Warehouse
- Azure Databricks Unity Catalog
- Schneeflocke
- Google Big Query (private Vorschau)
Wichtig
Data Quality für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:
- Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt. - Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema darstellen, werden unterstützt.
Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt.
Wir empfehlen dem Kunden, Daten in (1) oder (2) konstruierter Struktur darzustellen.
Unterstützte Authentifizierungsmethoden
Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie unter Übersicht über die Datenqualität.
Wichtig
Wenn das Schema für die Datenquelle aktualisiert wird, muss die Datenzuordnungsüberprüfung erneut ausgeführt werden, bevor eine Datenqualitätsüberprüfung ausgeführt wird.
Ausführen einer Datenqualitätsüberprüfung
Konfigurieren Sie eine Datenquellenverbindung mit den Ressourcen, die Sie auf Datenqualität überprüfen, sofern Sie sie noch nicht erstellt haben.
Wählen Sie Microsoft Purview Unified Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.
Wählen Sie in der Liste eine Governancedomäne aus.
Wählen Sie ein Datenprodukt aus, um die Datenqualität der mit diesem Produkt verknüpften Datenressourcen zu bewerten.
Wenn Sie das Datenprodukt auswählen, gelangen Sie zur Übersichtsseite der Datenqualität. Sie können die vorhandenen Data Quality-Regeln durchsuchen und neue Regeln hinzufügen, indem Sie auf dieser Seite das Menü Regeln auswählen. Sie können das Schema der Datenressource durchsuchen, indem Sie auf dieser Seite das Menü Schema auswählen.
Durchsuchen Sie die Regeln, die der Überprüfung für die ausgewählten Ressourcen bereits hinzugefügt wurden, und schalten Sie sie in der Spalte Status ein oder aus.
Führen Sie die Qualitätsüberprüfung aus, indem Sie auf der Übersichtsseite die Schaltfläche Qualitätsüberprüfung ausführen auswählen.
Während die Überprüfung ausgeführt wird, können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.
Planen von Datenqualitätsüberprüfungen
Obwohl Datenqualitätsscans ad-hoc ausgeführt werden können, indem Sie die Schaltfläche Qualitätsüberprüfung ausführen auswählen, ist es in Produktionsszenarien wahrscheinlich, dass die Quelldaten ständig aktualisiert werden. Daher möchten wir sicherstellen, dass wir die Datenqualität regelmäßig überwachen, um Probleme zu erkennen. Um es uns zu ermöglichen, regelmäßig aktualisierte Qualitätsscans zu verwalten, können wir den Scanvorgang automatisieren.
Wählen Sie Microsoft Purview Unified Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.
Wählen Sie in der Liste eine Governancedomäne aus.
Wählen Sie rechts auf der Seite die Schaltfläche Verwalten und dann Geplante Überprüfungen aus.
Füllen Sie das Formular auf der Seite Geplante Überprüfung erstellen aus. Fügen Sie einen Namen und eine Beschreibung für die Quelle hinzu, für die Sie den Zeitplan einrichten.
Wählen Sie Weiter.
Wählen Sie auf der Registerkarte Bereich einzelne Datenprodukte und Ressourcen oder alle Datenprodukte und Datenressourcen der gesamten Governancedomäne aus.
Wählen Sie Weiter.
Legen Sie einen Zeitplan basierend auf Ihren Einstellungen fest, und wählen Sie Weiter aus.
Wählen Sie auf der Registerkarte Überprüfen die Option Speichern (oder Speichern und sofort ausführen) aus, um die Planung der Überprüfung der Datenqualitätsbewertung abzuschließen.
Sie können geplante Überprüfungen auf der Seite Data Quality-Auftragsüberwachung auf der Registerkarte Scans überwachen.
Löschen vorheriger Datenqualitätsüberprüfungen
- Wählen Sie Microsoft Purview Unified Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.
- Wählen Sie in der Liste eine Governancedomäne aus.
- Klicken Sie oben auf der Seite auf die Schaltfläche mit den Auslassungspunkten ("...").
- Wählen Sie Datenqualitätsdaten löschen aus, um den Verlauf der Datenqualitätsausführungen zu löschen.
Hinweis
Es wird empfohlen, dieses Löschen nur für Testläufe, fehlerhafte Datenqualitätsausführungen oder für den Fall zu verwenden, dass Sie eine Datenressource aus einem Datenprodukt entfernen.
Wenn Sie eine Datenressource aus einem Datenprodukt entfernen möchten und diese Datenressource über eine Datenqualitätsbewertung verfügt, müssen Sie zuerst die Datenqualitätsbewertung löschen und dann die Datenressource aus dem Datenprodukt entfernen.
Wichtig
Das Delta-Format wird größtenteils automatisch erkannt, wenn das Format standard und in den Quellsystemen korrekt ist. Um das Parquet- oder iceberg-Dateiformat für die Datenqualitätsbewertung zu überprüfen, müssen Sie den Datentyp in Parquet oder iceberg ändern. Wie im folgenden Screenshot gezeigt, ändern Sie den Standarddatenobjekttyp *Parquet oder ein anderes unterstütztes Format, wenn das Dateiformat der Datenressource nicht Delta ist. Diese Änderung muss vor dem Konfigurieren des Data Quality-Überprüfungsauftrags vorgenommen werden.
Verwandte Inhalte
- Datenqualität für Fabric-Datenbestand
- Datenqualität für gespiegelte Fabric-Datenquellen
- Datenquellen mit verknüpfungsverknüpften Datenquellen für Die Datenqualität für Fabric
- Data Quality für Azure Synapse serverlose und Data Warehouses
- Data Quality für Azure Databricks Unity Catalog
- Datenqualität für Snowflake-Datenquellen
- Datenqualität für Google Big Query
Nächste Schritte
- Überwachen der Datenqualitätsüberprüfung
- Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.
- Konfigurieren von Warnungen für Ergebnisse der Datenqualitätsüberprüfung