Freigeben über


Konfigurieren und Ausführen der Datenprofilerstellung für eine Datenressource

Bei der Datenprofilerstellung werden die in verschiedenen Datenquellen verfügbaren Daten untersucht und Statistiken und Informationen zu diesen Daten gesammelt. Die Datenprofilerstellung hilft bei der Bewertung des Qualitätsniveaus der Daten gemäß definierten Zielen. Wenn Daten von schlechter Qualität sind oder in Strukturen verwaltet werden, die nicht integriert werden können, um die Anforderungen des Unternehmens zu erfüllen, leiden Geschäftsprozesse und Die Entscheidungsfindung. Die Datenprofilerstellung ermöglicht Es Ihnen, die Vertrauenswürdigkeit und Qualität Ihrer Daten zu verstehen, was eine Voraussetzung für datengesteuerte Entscheidungen ist, die den Umsatz steigern und das Wachstum fördern.

Voraussetzungen

  • Um Überprüfungen zur Datenqualitätsbewertung ausführen und planen zu können, müssen Ihre Benutzer in der Data Quality Steward-Rolle sein.
  • Derzeit kann das Microsoft Purview-Konto so festgelegt werden, dass öffentlicher Zugriff oder verwalteter VNET-Zugriff zugelassen wird, sodass Überprüfungen der Datenqualität ausgeführt werden können.

Lebenszyklus der Datenqualität

Die Datenprofilerstellung ist der fünfte Schritt des Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.

Unterstützte Multiclouddatenquellen

  • Azure Data Lake Storage (ADLS Gen2)
    • Dateitypen: Delta Parquet und Parquet
  • Azure SQL-Datenbank
  • Die Fabric-Datenumgebung in OneLake umfasst Verknüpfungen und Spiegelungsdaten. Die Datenprofilerstellung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
    • Spiegelungsdatenbestand: Cosmos DB, Snowflake, Azure SQL
    • Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
  • Azure Synapse serverlos und Data Warehouse
  • Azure Databricks Unity Catalog
  • Schneeflocke
  • Google Big Query (private Vorschau)

Wichtig

Data Quality für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema darstellen, werden unterstützt.
Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Wir empfehlen dem Kunden, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Unterstützte Authentifizierungsmethoden

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie unter Übersicht über die Datenqualität.

Wichtig

Wenn das Schema für die Datenquelle aktualisiert wird, muss die Datenzuordnungsüberprüfung erneut ausgeführt werden, bevor eine Datenprofilerstellung ausgeführt wird.

Schritte zum Konfigurieren des Datenprofilerstellungsauftrags

  1. Konfigurieren Sie eine Datenquellenverbindung mit dem Medienobjekt, falls Sie noch keine erstellt haben.

  2. Wählen Sie in Microsoft Purview Unified Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.

  3. Wählen Sie im Untermenü Data Quality die Governancedomäne für die Datenprofilerstellung aus.

  4. Wählen Sie ein Datenprodukt aus, um ein Profil für eine Datenressource zu erstellen, die mit diesem Produkt verknüpft ist.

    Screenshot des Datenqualitätsmenüs, das zeigt, wie ein Datenprodukt ausgewählt wird.

  5. Wählen Sie ein Datenasset aus, um zur Übersichtsseite der Datenqualität für die Profilerstellung zu navigieren.

  6. Wählen Sie die Schaltfläche Profil aus, um einen Profilerstellungsauftrag für das ausgewählte Datenasset auszuführen.

    Screenshot der Registerkarte

  7. Die KI-Empfehlungs-Engine schlägt potenziell wichtige Spalten vor, für die die Datenprofilerstellung ausgeführt werden soll. Sie können die Auswahl empfohlener Spalten deaktivieren und/oder weitere Spalten auswählen, für die ein Profil erstellt werden soll.

    Screenshot der Vorschläge für die Profilerstellungsspalte.

  8. Nachdem Sie die relevanten Spalten ausgewählt haben, wählen Sie Ausführungsprofil aus.

  9. Während der Ausführung des Auftrags können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.

  10. Wenn der Auftrag abgeschlossen ist, wählen Sie im linken Menü der Datenqualitätsseite des Medienobjekts die Registerkarte Profil aus, um das Profilerstellungsergebnis und die statistischen Momentaufnahme aufzulisten. Je nachdem, wie viele Spalten Ihre Datenressourcen haben, können mehrere Profilergebnisseiten vorhanden sein.

    Screenshot der Profilerstellungsseite mit hervorgehobener Spalte

  11. Durchsuchen Sie die Profilerstellungsergebnisse und statistischen Measures für jede Spalte.

    Screenshot der statistischen Momentaufnahme für eine einzelne Spalte.

Wichtig

Das Delta-Format wird größtenteils automatisch erkannt, wenn das Format standard und in den Quellsystemen korrekt ist. Um ein Profil für das Parquet- oder iceberg-Dateiformat zu erstellen, müssen Sie den Datentyp der Ressource in Parquet oder iceberg ändern. Wie im folgenden Screenshot gezeigt, ändern Sie den Standarddatenobjekttyp Parquet oder ein anderes unterstütztes Format, wenn das Dateiformat der Datenressource nicht Delta ist. Diese Änderung muss vor dem Konfigurieren des Profilerstellungsauftrags vorgenommen werden.

Screenshot der Auswahl des Ressourcentyps.

Nächste Schritte

  1. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
  2. Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
  3. Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.