Abschnitt 4: Ausführen der Datenqualität
Nachdem Sie nun über ein Datenprodukt im Katalog verfügen, wird das Ausführen von Data Quality-Regeln jedem mitteilen, dass die Daten in gutem Zustand sind und zur Verwendung bereit sind. Wenn mehr über die Daten erfahren wird, können neue Data Quality-Regeln hinzugefügt werden, um sicherzustellen, dass sie für alle Anwendungsfälle geeignet sind. Wenn Sie sicherstellen, dass Datenprodukte von höchster Qualität sind, können Sie Vertrauen in Ihre Daten schaffen und anderen mitteilen, dass sie besser überwacht werden. Wenn der Wert der Daten steigt, muss die Qualität dieser Daten genauer überwacht und kontrolliert werden, da Probleme mit der Datenqualität bei schlechter Verwaltung massive Auswirkungen haben können.
Voraussetzungen
- Data Quality-Regeln können nur für Deltaformattabellen in ADLS Gen2 und Microsoft Fabric ausgeführt werden.
- Die verwaltete Identität von Microsoft Purview muss aktiviert sein, um die Datenquelle zu lesen, da sie derzeit die einzigen unterstützten Anmeldeinformationen für die Datenqualität ist.
- Sie müssen über die Rolle Data Quality Steward in der Governancedomäne verfügen, in der Sie die Datenqualität ausführen.
- Sie müssen der Besitzer sein oder über Benutzerzugriffsadministratoren auf die Datenquelle verfügen, die Sie mit der Überprüfung der Datenqualität verbinden, um eine ordnungsgemäße Sicherheitsautorisierung zum Überprüfen der Daten sicherzustellen.
- Sie müssen über die Rolle Data Profile Steward verfügen, um Profile für Ihre Daten ausführen zu können.
Erstellen und Ausführen von Datenqualitätsregeln
Öffnen Sie das Microsoft Purview-Portal.
Wählen Sie Unified Catalog aus.
Wählen Sie unter Datenverwaltung die Registerkarte Datenqualität aus.
Wählen Sie die in Abschnitt 1 erstellte Persönliche Integritätsdomäne aus.
Wählen Sie die Schaltfläche Verwalten aus, und wählen Sie im Menü Connections aus. Durch das Herstellen dieser Verbindung wird sichergestellt, dass Sie In der Lage sind, Datenqualitätsscans für Ihre Datenquelle in dieser Governancedomäne durchzuführen, sodass Teams ohne ordnungsgemäße Autorisierung keinen Zugriff auf Die Daten erhalten.
Wählen Sie auf dem Bildschirm "Verbindungen" die Option Neu aus, um eine neue Verbindung zu erstellen:
- Geben Sie den Anzeigenamen "Personal Health ADLSg2 DQ" an.
- Wählen Sie den Quelltyp der Azure Data Lake Storage Gen2 aus.
- Geben Sie Details zur Datenquelle an, die in Abschnitt 2 erstellt wurde.
Hinweis
Anmeldeinformationen müssen Microsoft Purview MSI (System) für eine Datenqualitätsverbindung sein.
- Wählen Sie Verbindung testen aus.
- Nachdem die Verbindung getestet wurde, wählen Sie Senden aus.
- Geben Sie Details zur Datenquelle an, die in Abschnitt 2 erstellt wurde.
Sobald die Verbindung hergestellt wurde, können Sie Profile ausführen und mit dem Erstellen von Datenqualitätsregeln beginnen. Dadurch wird sichergestellt, dass die Experten, die die Geschäftsregeln und die entsprechenden Regeln kennen, auf den wichtigsten Datenprodukten ausgeführt werden.
- Zurück zur Seite Datenqualität.
- Wählen Sie die Governancedomäne Personal Health aus.
- Wählen Sie das Produkt Covid-19-Impfung und Falltrend nach Alter aus, das in Abschnitt 3 erstellt wurde.
- Wählen Sie das Medienobjekt aus, das dem Datenprodukt hinzugefügt wurde. (Es muss im Deltaformat aus Abschnitt 2 vorliegen, sonst wird die Datenqualität nicht ausgeführt.)
- Wenden Sie Datenqualitätsregeln auf die Spalten der Daten an, um zu messen, ob sie Ihre Qualitätserwartungen erfüllen:
- Wählen Sie auf der ausgewählten Ressource die Registerkarte Regeln aus.
- Wählen Sie Neue Regel aus.
- Wählen Sie Die Regel leere/leere Felder aus.
- Geben Sie Details an:
- Wählen Sie die Spalte AgeGroupVacc aus der Dropdownliste der Spalte aus.
- Regelname: Bestätigen, dass die Impfaltersgruppe vorhanden ist
- Wählen Sie Erstellen aus.
- Wählen Sie Neue Regel aus.
- Wählen Sie Datentyp match aus.
- Geben Sie Details an.
- Wählen Sie DatumSpalte hinzufügen aus.
- Wählen Sie Erstellen aus.
- Wählen Sie Run Data quality scan (Datenqualitätsüberprüfung ausführen) aus.
Profildaten
Erstellen Sie ein Profil für Ihre Daten, um die allgemeinen Statischen jeder Spalte anzuzeigen und Anomalien zu ermitteln, die eine neue Regel aufweisen könnten.
- Wählen Sie in Unified Catalog Die Option Integritätsverwaltung und dann Datenqualität aus.
- Auswählen von Profildaten
- Aktivieren Sie das obere Kontrollkästchen neben Spaltenname , um ein Profil für alle Spalten zu erstellen. Microsoft Purview empfiehlt, welche Spalten ein Profil erstellen sollen, und Sie können Spalten auswählen, von denen Sie wissen, dass sie eine Profilerstellung wert sind, um zu verhindern, dass Profile mit hochsensiblen Daten oder Daten, von denen Sie wissen, dass sie nur spärlich aufgefüllt werden.
- Auswählen des Ausführungsprofils
Wenn die Überprüfung abgeschlossen ist, können Sie die Datenqualitätsbewertung und das Profil für Ihr neues Datenprodukt überprüfen, und die Datenqualitätsbewertung steht allen Benutzern des Katalogs zur Verfügung, um sicherzustellen, dass alle die status der Daten kennen.
Erstellen Sie einen Zeitplan für Ihre Datenqualitätsüberprüfungen, um sicherzustellen, dass Sie kontinuierlich Auf Probleme mit der Datenqualität überwachen. Legen Sie Warnungen fest, um sicherzustellen, dass Probleme mit der Datenqualität behoben werden, bevor Consumer betroffen sind.
- Wählen Sie unter Integritätsverwaltungdie Option Datenqualität aus.
- Wählen Sie die Domäne Personal Health aus, in der die Datenqualitätsregeln konfiguriert wurden.
- Wählen Sie in der Dropdownliste Verwalten die Option Geplante Überprüfungen aus.
- Wählen Sie auf der Seite Geplante Überprüfungen die Option Neu aus.
-
Hinzufügen von Übersichtsdetails
- Name: Personal Health DQ Monatliche Auswertung
- Beschreibung: Monatliche Überprüfung von DQ-Regeln zur kontinuierlichen Verbesserung.
- Wählen Sie Weiter aus.
- Wählen Sie den Bereich der Überprüfung aus.
- Aktivieren Sie das Kontrollkästchen neben Covid-19-Impfung und Falltrend nach Alter Daten produkt
- Wählen Sie Weiter aus.
- Planen Sie die Überprüfung, um sicherzustellen, dass sie am letzten Tag jedes Monats ausgeführt wird.
- Wählen Sie "Serie" aus.
- Wiederholung: Alle einen Monat
- Monatstage: Letzte
- Zeitplan scan time (UTC): 12:00:00
- Wiederholung um (UTC) starten: Übernehmen Sie die Standardeinstellung.
- Wählen Sie Weiter aus.
- Überprüfen Sie die Details der Überprüfung, um festzustellen, ob vor dem Speichern Änderungen vorgenommen werden sollen.
- Klicken Sie auf Speichern. Da wir zuvor eine manuelle Überprüfung ausgelöst haben, müssen wir jetzt keine weitere Überprüfung auslösen, aber wenn eine neue Überprüfung erforderlich ist, wählen Sie Speichern und ausführen aus.
Konfigurieren von Benachrichtigungen
Sobald für die Datenqualität geplante Überprüfungen ausgeführt wurden, können Warnungen ausgelöst werden, um die Stewards darüber zu informieren, ob Probleme oder Aufmerksamkeit aufgrund von Problemen mit der Datenqualität oder Überprüfungsfehlern erforderlich sind. Konfigurieren Sie eine Datenqualitätswarnung für fehlgeschlagene Überprüfungen und wenn die Bewertung um mehr als 5 % abnimmt.
- Zurück auf der Seite Datenqualität zur Domäne "Personal Health".
- Wählen Sie in der Dropdownliste Verwalten die Option Warnungen aus.
- Wählen Sie Neu aus.
- Eingeben von Warnungsdetails
- Anzeigename: Personal Health DQ Monatlicher Scan
- Beschreibung: Um sicherzustellen, dass mindeste DQ-Schwellenwerte die Erwartungen der Kunden erfüllen.
- Ziel: Die Bewertung sinkt um mehr als
- Schwellenwert: 5
- Benachrichtigungen deaktivieren: Deaktiviert lassen
- Benachrichtigung bei fehlerhaften Qualitätsüberprüfungen aktivieren: Aktiviert lassen
- Empfänger: Geben Sie Ihren Namen ein.
- Wählen Sie Weiter.
Tipp
Bei der Implementierung in Ihrem Unified Catalog sollten Sie die Warnungen an die Stewards senden, die Die Verbraucher über das Problem benachrichtigen und mit dem technischen Besitzer der Daten zusammenarbeiten können, um Korrekturen vorzunehmen.
Am Ende dieses Abschnitts verfügen Sie nun über eine funktionierende Unified Catalog mit operativer Datenqualität, um die Daten zu verwalten, die Sie den Datenconsumern der Organisation anbieten. Alles war, um die wertvollsten Daten für den Consumer zu erhalten und Vertrauen in die Daten aufzubauen, die er verwenden würde. Wenn der Wert der Daten wächst und neue Datenstrategien entstehen, wird der nächste Abschnitt helfen, zu zeigen, wie Sie den gesamten Katalog verwalten oder tiefer in die spezifische Datenverwaltung mit Master Data gehen können.