Konfigurieren und Ausführen der Datenprofilerstellung für eine Datenressource

Artikel
03/24/2025

Bei der Datenprofilerstellung werden die in verschiedenen Datenquellen verfügbaren Daten untersucht und Statistiken und Informationen zu diesen Daten gesammelt. Die Datenprofilerstellung hilft bei der Bewertung des Qualitätsniveaus der Daten gemäß definierten Zielen. Wenn Daten von schlechter Qualität sind oder in Strukturen verwaltet werden, die nicht integriert werden können, um die Anforderungen des Unternehmens zu erfüllen, leiden Geschäftsprozesse und Die Entscheidungsfindung. Die Datenprofilerstellung ermöglicht Es Ihnen, die Vertrauenswürdigkeit und Qualität Ihrer Daten zu verstehen, was eine Voraussetzung für datengesteuerte Entscheidungen ist, die den Umsatz steigern und das Wachstum fördern.

Voraussetzungen

Um Überprüfungen zur Datenqualitätsbewertung ausführen und planen zu können, müssen Ihre Benutzer in der Data Quality Steward-Rolle sein.
Derzeit kann das Microsoft Purview-Konto so festgelegt werden, dass öffentlicher Zugriff oder verwalteter VNET-Zugriff zugelassen wird, sodass Überprüfungen der Datenqualität ausgeführt werden können.

Lebenszyklus der Datenqualität

Die Datenprofilerstellung ist der fünfte Schritt des Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
Hinzufügen Ihrer Datenressource zu einem Datenprodukt
Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.

Unterstützte Multiclouddatenquellen

Durchsuchen Sie das unterstützte Datenquellendokument , um die Liste der unterstützten Datenquellen anzuzeigen, einschließlich Dateiformaten für die Datenprofilerstellung und Datenqualitätsüberprüfung mit und ohne VNET-Unterstützung.

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind. Es muss ein direkter FQN sein, der zu {SparkPartitions} führt.
Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Unterstützte Authentifizierungsmethoden

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie unter Übersicht über die Datenqualität.

Wichtig

Wenn das Schema für die Datenquelle aktualisiert wird, muss die Datenzuordnungsüberprüfung erneut ausgeführt werden, bevor eine Datenprofilerstellung ausgeführt wird. Sie können das Schema mithilfe des Schemaimportfeatures von der Übersichtsseite der Datenqualität importieren. Wenn Ihre Datenquelle im verwalteten vNet oder im privaten Endpunkt ausgeführt wird, wird das Schemaimportfeature nicht unterstützt.
vNet wird für Azure Databricks, Google BigQuery und Snowflake nicht unterstützt.
In der aktuellen Version können Sie ein Profil von 50 Spalten pro Batch erstellen. Wenn Ihre Datenressource über mehr als 50 Spalten verfügt, können Sie zusätzliche Spalten in mehr Batches erstellen.
Wenn eine Spalte einen eindeutigen Wert enthält, wird davon abgeraten, eine Profilerstellung für diese Spalte zu erstellen. Eine Spalte mit unterschiedlichen Werten kann keine Normalverteilung erstellen.

Schritte zum Konfigurieren des Datenprofilerstellungsauftrags

Konfigurieren Sie eine Datenquellenverbindung mit den Ressourcen, die Sie auf Datenqualität überprüfen , wenn Sie dies noch nicht getan haben.
Wählen Sie Microsoft Purview Unified Catalog integritätsverwaltung und dann Datenqualität aus.
Wählen Sie in der Liste eine Governancedomäne aus.
Wählen Sie ein Datenprodukt aus, um ein Profil für eine Datenressource zu erstellen, die mit diesem Produkt verknüpft ist.
Wählen Sie ein Datenasset aus, um zur Übersichtsseite der Datenqualität für die Profilerstellung zu navigieren.
Wählen Sie die Schaltfläche Profil aus, um den Profilerstellungsauftrag für das ausgewählte Datenasset auszuführen.
Die KI-Empfehlungs-Engine schlägt potenziell wichtige Spalten vor, für die die Datenprofilerstellung ausgeführt werden soll. Sie können die Auswahl empfohlener Spalten deaktivieren und/oder weitere Spalten auswählen, für die ein Profil erstellt werden soll.
Nachdem Sie die relevanten Spalten ausgewählt haben, wählen Sie Ausführungsprofil aus.
Während der Ausführung des Auftrags können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.
Wenn der Auftrag abgeschlossen ist, wählen Sie im linken Menü der Datenqualitätsseite des Medienobjekts die Registerkarte Profil aus, um das Profilerstellungsergebnis und die statistischen Momentaufnahme aufzulisten. Je nachdem, wie viele Spalten Ihre Datenressourcen haben, können mehrere Profilergebnisseiten vorhanden sein.
Durchsuchen Sie die Profilerstellungsergebnisse und statistischen Measures für jede Spalte.

Nächste Schritte

Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.

Freigeben über

Konfigurieren und Ausführen der Datenprofilerstellung für eine Datenressource

Voraussetzungen

Lebenszyklus der Datenqualität

Unterstützte Multiclouddatenquellen

Unterstützte Authentifizierungsmethoden

Schritte zum Konfigurieren des Datenprofilerstellungsauftrags

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Konfigurieren und Ausführen der Datenprofilerstellung für eine Datenressource

Voraussetzungen

Lebenszyklus der Datenqualität

Unterstützte Multiclouddatenquellen

Unterstützte Authentifizierungsmethoden

Schritte zum Konfigurieren des Datenprofilerstellungsauftrags

Verwandte Inhalte

Nächste Schritte

Feedback

Zusätzliche Ressourcen