Freigeben über


Microsoft Purview Data Quality Übersicht

Hinweis

Der Microsoft Purview Data Catalog ändert seinen Namen in Microsoft Purview Unified Catalog. Alle Features bleiben unverändert. Die Namensänderung wird angezeigt, wenn die neue Microsoft Purview Data Governance-Benutzeroberfläche in Ihrer Region allgemein verfügbar ist. Überprüfen Sie den Namen in Ihrer Region.

Microsoft Purview Data Quality ist eine umfassende Lösung, die Governancedomänen- und Datenbesitzern ermöglicht, die Qualität ihres Datenökosystems zu bewerten und zu überwachen, um gezielte Verbesserungsmaßnahmen zu ermöglichen. In der heutigen KI-gestützten Landschaft wirkt sich die Zuverlässigkeit von Daten direkt auf die Genauigkeit kigesteuerter Erkenntnisse und Empfehlungen aus. Ohne vertrauenswürdige Daten besteht die Gefahr, dass das Vertrauen in KI-Systeme beeinträchtigt wird und deren Einführung behindert wird.

Eine schlechte Datenqualität oder inkompatible Datenstrukturen können Geschäftsprozesse und Entscheidungsfunktionen beeinträchtigen. Microsoft Purview Data Quality stellt sich diesen Herausforderungen, indem benutzern die Möglichkeit geboten wird, die Datenqualität mithilfe von Regeln ohne code/low-code zu bewerten, einschließlich sofort einsatzbereiter Regeln (OOB) und KI-generierter Regeln. Diese Regeln werden auf Spaltenebene angewendet und aggregiert, um Bewertungen auf der Ebene von Datenassets, Datenprodukten und Governancedomänen zu liefern, sodass die End-to-End-Sichtbarkeit der Datenqualität innerhalb der einzelnen Domänen sichergestellt wird.

Microsoft Purview Data Quality enthält auch KI-gestützte Datenprofilerstellungsfunktionen, die Spalten für die Profilerstellung empfehlen, während menschliches Eingreifen diese Empfehlungen verfeinern kann. Dieser iterative Prozess verbessert nicht nur die Genauigkeit der Datenprofilerstellung, sondern trägt auch zur kontinuierlichen Verbesserung der zugrunde liegenden KI-Modelle bei.

Durch die Anwendung von Microsoft Purview Data Quality können Organisationen die Qualität ihrer Datenressourcen effektiv messen, überwachen und verbessern, um die Zuverlässigkeit kigesteuerter Erkenntnisse zu stärken und das Vertrauen in KI-basierte Entscheidungsprozesse zu fördern.

Lebenszyklus der Datenqualität

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Ihrem Datenkatalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  5. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
    1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
  6. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
  7. Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
  8. Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.
  9. Wiederholen Sie die Schritte 5 bis 8 in regelmäßigen Abständen über den Lebenszyklus Ihrer Datenressource, um sicherzustellen, dass die Qualität erhalten bleibt.
  10. Kontinuierliches Überwachen der Datenqualität
    1. Überprüfen Sie Datenqualitätsaktionen , um Probleme zu identifizieren und zu beheben.
    2. Legen Sie Data Quality-Benachrichtigungen fest, um Sie bei Qualitätsproblemen zu benachrichtigen.

Unterstützte Data Quality-Regionen

Microsoft Purview Data Quality wird derzeit in den folgenden Regionen unterstützt:

Unterstützte Multi-Cloud-Datenquellen

  • Azure Data Lake Storage (ADLS Gen2)
    • Dateitypen: Delta Parquet und Parquet
  • Azure SQL-Datenbank
  • Fabric-Datenbestand in OneLake einschließlich Verknüpfungs- und Spiegelungsdatenbestand. Die Data Quality-Überprüfung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
    • Spiegelungsdatenbestand: CosmosDB, Snowflake, Azure SQL
    • Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
  • Azure Synapse serverlos und Data Warehouse
  • Azure Databricks Unity Catalog
  • Schneeflocke
  • Google Big Query (private Vorschau)

Wichtig

Data Quality für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema darstellen, werden unterstützt.
Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Wir empfehlen dem Kunden, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.

Data Quality-Features

  • Konfiguration der Datenquellenverbindung
    • Konfigurieren Sie die Verbindung, damit die Purview DQ SaaS-Anwendung Lesezugriff auf Daten für Qualitätsüberprüfungen und -profilerstellungen hat.
    • MS Purview verwendet verwaltete Identität als Authentifizierungsoption.
  • Datenprofilerstellung
    • KI-fähige Datenprofilerstellung
    • Branchenstandard statistische Momentaufnahme (Verteilung, Min, Max, Standardabweichung, Eindeutigkeit, Vollständigkeit, Duplikat, ...)
    • Drilldown für Profilerstellungsmeasures auf Spaltenebene.
  • Regeln zur Datenqualität
    • Vorkonformitätsregeln zum Messen von sechs Branchenstandards Datenqualitätsdimensionen (Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Aktualität und Eindeutigkeit)
    • Benutzerdefinierte Regelerstellungsfeatures umfassen die Anzahl der sofort einsatzbereiten Funktionen und Ausdruckswerte.
    • Automatisch generierte Regeln mit kiintegrierter Benutzeroberfläche
  • Datenqualitätsüberprüfung
    • Wählen Sie Regeln aus, und weisen Sie sie Spalten für die Datenqualitätsüberprüfung zu.
    • Wenden Sie die Datenfrischheitsregel auf Entitäts-/Tabellenebene an, um die SLA für die Aktualität der Daten zu messen.
    • Planen des Data Quality-Überprüfungsauftrags für einen bestimmten Zeitraum (stündlich, täglich, wöchentlich, monatlich usw.)
  • Data Quality-Auftragsüberwachung
    • Aktivieren des Überwachungsauftrags für data quality status (aktiv, abgeschlossen, fehlgeschlagen usw.)
    • Aktivieren Sie das Durchsuchen des DQ-Überprüfungsverlaufs.
  • Datenqualitätsbewertung
    • Data Quality score in rule level (was ist die Qualitätsbewertung für eine Regel, die auf eine Spalte angewendet wurde)
    • Datenqualitätsbewertung für Datenressourcen, Datenprodukte und Governancedomänen (eine Governancedomäne kann über viele Datenprodukte verfügen, ein Datenprodukt kann über viele Datenressourcen verfügen, ein Datenressource kann viele Datenspalten aufweisen)
  • Datenqualität für kritische Datenelemente (CDEs)
    • Dies ist eines der wichtigsten Features von Purview Data Quality, es ist die Möglichkeit, Datenqualitätsregeln auf das logische Konstrukt von CDEs anzuwenden, die dann an die physischen Datenelemente weitergegeben werden, aus denen sie bestehen. Durch das Definieren von Datenqualitätsregeln auf CDEs-Ebene können Organisationen bestimmte Kriterien und Schwellenwerte festlegen, die CDEs erfüllen müssen, um ihre Qualität aufrechtzuerhalten.
  • Data Quality-Warnungen
    • Konfigurieren Sie Warnungen, um Datenbesitzer und Data Stewards zu benachrichtigen, wenn der Schwellenwert für die Datenqualität die Erwartungen verfehlt hat.
    • Konfigurieren Sie den E-Mail-Alias oder die Verteilergruppe, um die Benachrichtigung über Probleme mit der Datenqualität zu senden.
  • Aktionen zur Datenqualität
    • Aktionscenter für DQ mit Aktionen zum Behandeln von DQ-Anomaliezuständen, einschließlich Diagnoseabfragen für DQ Steward, um die spezifischen Daten zu beheben, die für jeden Anomaliezustand behoben werden müssen.
  • Verwaltetes virtuelles Netzwerk mit Datenqualität
    • Ein virtuelles Netzwerk, das durch Datenqualität verwaltet wird und eine Verbindung mit privaten Endpunkten mit Ihren Azure-Datenquellen herstellt.

Einschränkung

  • vNet wird für den Unity-Katalog von Google Big Query, Snowflake und Azure Data-Bausteinen nicht unterstützt.

Nächste Schritte

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Ihrem Datenkatalog zu, um alle Data Quality-Features zu verwenden.
  2. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  3. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.