Abschnitt 2: Einrichten und Registrieren Ihrer Daten
Wenn Keine Datenquellen für die Überprüfung verfügbar sind, können Sie die folgenden Schritte ausführen, um ein Azure Data Lake Stroage (ADLS Gen2)-Beispiel vollständig bereitzustellen.
Tipp
Wenn Sie bereits über eine Datenquelle im selben Mandanten wie Ihr Microsoft Purview-Konto verfügen, fahren Sie mit dem nächsten Teil dieses Abschnitts fort, um Ihre Ressourcen zu überprüfen.
In einer realen Datenumgebung finden Sie viele verschiedene Systeme, die für verschiedene Datenanwendungen verwendet werden. Es gibt Berichtsumgebungen wie Fabric und Snowflake, in denen Teams Kopien von Daten verwenden, um Analyselösungen zu erstellen und ihre Berichte und Dashboards zu unterstützen. Es gibt betriebsbezogene Datensysteme, die die Anwendungsteams oder Kunden verwenden, um Geschäftsprozesse abzuschließen, die Daten basierend auf entscheidungen sammeln oder hinzufügen, die während des Prozesses getroffen wurden.
Um einen realistischeren Datenbestand zu erstellen, wird empfohlen, viele Datenquellen im Katalog anzuzeigen, die die Breite der verschiedenen Datenverwendungen jedes Unternehmens abdecken können. Die Arten von Daten, die für einen Anwendungsfall erforderlich sind, können bei Geschäftsbenutzern, die Berichte und Dashboards benötigen, sehr unterschiedlich sein. Analysten benötigen konforme Dimensionen und Fakten, um Berichte zu erstellen, wissenschaftliche Fachkräfte für Daten oder Technische Fachkräfte für Daten benötigen Rohdaten, die direkt aus dem System stammen, das die Daten alle erfasst, und mehr ermöglichen es verschiedenen Benutzern, die Wichtigkeit der Suche zu erkennen, Verstehen und Zugreifen auf Daten am selben Ort.
Weitere Tutorials zum Hinzufügen von Daten zu Ihrem Bestand finden Sie in den folgenden Anleitungen:
- Fabric Lakehouse-Tutorial : Stellt die Grundlage einer Berichterstellungsumgebung bereit
- Azure SQL-Datenbank (Beispiel) – bietet ein gut strukturiertes Beispiel für einen operativen Datenspeicher.
Voraussetzungen
- Abonnement in Azure: Erstellen Ihres kostenlosen Azure-Kontos noch heute
- Microsoft Entra ID für Ihren Mandanten: Microsoft Entra ID Governance
- Ein Microsoft Purview-Konto
- Admin Zugriff auf das Microsoft Purview-Konto (Dies ist die Standardeinstellung, wenn Sie das Microsoft Purview-Konto erstellt haben. Berechtigungen in der Vorschauversion des neuen Microsoft Purview-Portals | Microsoft Learn)
- Alle Ressourcen; Microsoft Purview, Ihre Datenquelle und Microsoft Entra ID müssen sich im selben Cloudmandanten befinden.
Schritte zum Einrichten Ihres Datenbestands
Erstellen und Auffüllen eines Speicherkontos
- Befolgen Sie diese Anleitung zum Erstellen eines Speicherkontos: Erstellen eines Speicherkontos für Azure Data Lake Storage Gen2
- Erstellen Sie Container für Ihren neuen Data Lake:
- Navigieren Sie zur Seite Übersicht unseres Speicherkontos.
- Wählen Sie im Abschnitt Datenspeicher die Registerkarte Container aus.
- Wählen Sie die Schaltfläche + Container aus.
- Benennen Sie "bronze", und wählen Sie die Schaltfläche Erstellen aus.
- Wiederholen Sie diese Schritte, um einen Goldcontainer zu erstellen.
- Laden Sie einige CSV-Beispieldaten aus data.gov herunter: Covid-19-Impf- und Falltrends nach Altersgruppe, USA
- Laden Sie die CSV-Datei in den Container "bronze" im speicherkonto hoch, das Sie erstellt haben.
- Wählen Sie den Container "bronze" und dann die Schaltfläche Hochladen aus.
- Durchsuchen Sie den Speicherort, an dem Sie die CSV-Datei gespeichert haben, und wählen Sie die Datei Covid-19_Vaccination_Case _Trends aus.
- Wählen Sie Hochladen aus.
Erstellen einer Azure Data Factory
In diesem Schritt wird veranschaulicht, wie Daten zwischen den Ebenen eines Medallion Data Lake verschoben werden, und es wird sichergestellt, dass die Daten in einem standardisierten Format vorliegen, das von Den Verbrauchern erwartet wird. Dies ist ein Voraussetzungsschritt für die Ausführung von Data Quality.
Befolgen Sie diese Anleitung, um eine Azure Data Factory zu erstellen: Erstellen einer Azure Data Factory
Kopieren Sie die Daten aus der CSV-Datei im Container "bronze" als Tabelle im Delta-Format in den Container "gold". Verwenden Sie dazu diesen Azure Data Factory Leitfaden: Transformieren von Daten mithilfe eines Zuordnungsdatenflusses.
Öffnen Sie die Azure Data Factory (ADF) im Azure-Portal, indem Sie auf der Registerkarte Übersicht der erstellten ADF-Ressource die Schaltfläche Studio starten auswählen.
Wählen Sie in ADF Studio die Registerkarte Autor aus.
Wählen Sie die + Schaltfläche aus, und wählen Sie datenfluss aus dem Dropdownmenü aus.
Nennen Sie den Dataflow "CSVtoDeltaC19VaxTrends".
Wählen Sie im leeren Feld Quelle hinzufügen aus.
Legen Sie Quelleinstellungen auf Folgendes fest:
- Name des Ausgabestreams: "C19csv"
- Beschreibung: Leer lassen
- Quelltyp: Inline
- Inlinedatasettyp: Text mit Trennzeichen
- Verknüpfter Dienst: Wählen Sie den Data Lake aus, in dem Sie die CSV-Datei gespeichert haben.
Legen Sie Quelloptionen auf Folgendes fest:
- Dateimodus: Datei
- Dateipfad: /bronze/ Covid-19_Vaccination_Case _Trends
- Keine Dateien gefunden: Deaktiviert lassen
- Change Data Capture: Deaktiviert lassen
- Komprimierungstyp: Keine
- Codierung: Standard(UTF-8)
- Spaltentrennzeichen: Komma (,)
- Zeilentrennzeichen: Default(\r, \n oder\r\n)
- Anführungszeichen: Doppeltes Anführungszeichen (")
- Escapezeichen: Umgekehrter Schrägstrich ()
- Erste Zeile als Kopfzeile: CHECKED
- Übernehmen Sie den Rest als Standardwerte.
Wählen Sie das kleine + Neben der erstellten Quelle und dann Senke aus.
Erstellen Sie die Senke, in der das Format und der Speicherort der zu speichernden Daten gespeichert werden sollen, um die Daten aus einer CSV-Datei in "Bronze" in eine Deltatabelle in "Gold" zu verschieben.
- Festlegen der Senkewerte (übernehmen Sie alle Einstellungen als Standard, sofern nicht angegeben).
- Senkentyp: Inline
- Inlinedatasettyp: Delta
- Verknüpfter Dienst: Derselbe Data Lake wie in der Quelle, da wir in einem anderen Container speichern.
Legen Sie die Einstellungswerte fest (übernehmen Sie alle Einstellungen als Standard, sofern nicht angegeben).
- Ordnerpfad: Gold/Covid19-Impfstoff und Falltrends
Sie müssen den Wert eingeben, da dieser Name die Daten speichern soll und nicht vorhanden ist.
Wählen Sie Überprüfen aus, um Den Datenfluss zu überprüfen und Anweisungen zum Beheben von Fehlern bereitzustellen.
Wählen Sie Alle veröffentlichen aus.
Wählen Sie die + Schaltfläche aus, und wählen Sie im Dropdownmenü pipeline aus.
Nennen Sie Ihre Pipeline "CSV to Delta C19 Vax Trends"
Wählen Sie den in den vorherigen Schritten erstellten Dataflow csv to Delta (C19VaxTrends) aus, und ziehen Sie ihn auf der geöffneten Pipelineregisterkarte.
Wählen Sie Überprüfen aus.
Wählen Sie Veröffentlichen aus.
Wählen Sie Debuggen (Aktivitätslaufzeit verwenden) aus, um die Pipeline auszuführen.
Tipp
Wenn Fehler für Leerzeichen oder ungeeignete Zeichen für das Deltaformat auftreten: Öffnen Sie die heruntergeladene CSV-Datei, und nehmen Sie Korrekturen vor. Laden Sie dann die CSV-Datei in der Bronzezone erneut hoch, und überschreiben Sie sie. Führen Sie dann Ihre Pipeline erneut aus.
Navigieren Sie im Data Lake zu Ihrem Goldcontainer. Nun sollte die neue Delta-Tabelle angezeigt werden, die während der Pipeline erstellt wurde.
Überprüfen Ihrer Ressourcen
Wenn Sie keine Datenressourcen in Ihrem Microsoft Purview Data Map gescannt haben, können Sie die folgenden Schritte ausführen, um Ihre Datenzuordnung aufzufüllen.
Beim Überprüfen von Quellen in Ihrem Datenbestand werden automatisch die Metadaten der Datenassets (Tabellen, Dateien, Ordner, Berichte usw.) in diesen Quellen erfasst. Indem Sie eine Datenquelle registrieren und die Überprüfung erstellen, legen Sie den technischen Besitz an den Quellen und Ressourcen fest, die im Katalog angezeigt werden, und stellen sicher, dass Sie die Kontrolle darüber haben, wer auf welche Metadaten in Microsoft Purview zugreifen kann. Durch die Registrierung und Speicherung von Quellen und Ressourcen auf Domänenebene werden sie auf der höchsten Ebene der Zugriffshierarchie gespeichert. In der Regel ist es am besten, einige Sammlungen zu erstellen, in denen Sie die Ressourcenmetadaten scannen und die richtige Zugriffshierarchie für diese Daten einrichten.
-
Bieten Sie Leserzugriff für Microsoft Purview Managed Identity (MSI) auf Ihren Data Lake oder einen anderen Datenspeicher.
Tipp
Die MSI ist der Kontoname des Microsoft Purview-instance.
Wenn Sie sich für die Verwendung von Microsoft Fabric oder SQL entschieden haben, können Sie die folgenden Leitfäden verwenden, um Zugriff zu gewähren:
Registrieren Ihres Data Lake und Überprüfen Ihrer Ressourcen
Wählen Sie Microsoft Purview Data Map auf der Registerkarte Domänen die Rollenzuweisungen für die Domäne aus (der Name des Microsoft Purview-Kontos):
- Fügen Sie sich selbst als Datenquellenadministrator und Datenkurator zur Domäne hinzu.
- Wählen Sie das Personensymbol neben der Rolle Datenquellenadministrator aus.
- Suchen Sie Ihren Namen so, wie er in Microsoft Entra ID ist (möglicherweise müssen Sie Ihren vollständigen Namen genau so eingeben, wie er in Microsoft Entra ID ist).
- Wählen Sie OK aus.
- Wiederholen Sie diese Schritte für den Datenkurator.
- Fügen Sie sich selbst als Datenquellenadministrator und Datenkurator zur Domäne hinzu.
Registrieren des Data Lake:
- Wählen Sie die Registerkarte Datenquellen aus.
- Wählen Sie Registrieren aus.
- Wählen Sie den speichertyp Azure Data Lake Storage Gen2 aus.
Geben Sie die Details zum Herstellen einer Verbindung an:
- Abonnement (optional)
- Datenquellenname (dies ist der Name der ADLS Gen2-Quelle)
- Sammlung, in der Ressourcenmetadaten gespeichert werden sollen (optional)
- Wählen Sie Registrieren aus.
Sobald die Registrierung der Datenquelle abgeschlossen ist, können Sie die Überprüfung konfigurieren. Die Registrierung bedeutet, dass Microsoft Purview mit der Datenquelle verbunden ist und sie in der richtigen Sammlung für den Besitz abgelegt hat. Die Überprüfung liest dann die Metadaten aus der Quelle und füllt die Ressourcen in der Datenzuordnung auf.
Wählen Sie die Quelle aus, die Sie auf der Registerkarte "Datenquellen" registriert haben.
Wählen Sie neue Überprüfung aus, und geben Sie Details an:
- Verwenden der Standardmäßigen Integration Runtime für diese Überprüfung
- Anmeldeinformationen sollten Microsoft Purview MSI (System) sein.
- Scanebene ist "Auto Detect"
- Wählen Sie eine Sammlung aus, oder verwenden Sie die Domäne (Sammlung muss dieselbe Sammlung oder untergeordnete Sammlung sein, in der die Datenquelle registriert wurde)
- Wählen Sie Weiter aus.
Tipp
An diesem Punkt testt Microsoft Purview die Verbindung, um zu überprüfen, ob eine Überprüfung durchgeführt werden kann. Wenn Sie dem Microsoft Purview MSI-Leser keinen Zugriff auf die Datenquelle gewährt haben, tritt ein Fehler auf. Wenn Sie nicht der Besitzer der Datenquelle sind oder über Benutzerzugriff Mitwirkender tritt bei der Überprüfung ein Fehler auf, da erwartet wird, dass Sie über die Berechtigung zum Erstellen der Verbindung verfügen.
Wählen Sie jetzt nur den Container "gold" aus, in dem die Delta-Tabelle im Abschnitt "Gebäudedaten" des Tutorials platziert wurde. Dadurch wird verhindert, dass andere Datenassets in Ihrem Datenspeicher überprüft werden.
- Sollte nur ein blauer Häkchen neben Gold vorhanden sein, können Sie Prüfungen neben allem belassen, da die vollständige Quelle überprüft und trotzdem die Ressourcen erstellt werden, die wir verwenden und mehr.
- Wählen Sie Weiter aus.
Auf dem Bildschirm "Scanregelsatz auswählen" sollten Sie den Standardregelsatz für die Überprüfung verwenden.
Wählen Sie Weiter aus.
In Set a scan trigger (Überprüfungstrigger festlegen) legen Sie die Häufigkeit der Überprüfung so fest, dass die Datenzuordnung weiterhin aufgefüllt wird, wenn Sie dem Goldcontainer des Lake datenassets hinzufügen. Wählen Sie Einmal aus.
Wählen Sie Weiter.
Wählen Sie Speichern und ausführen aus. Dadurch wird eine Überprüfung erstellt, die nur die Metadaten aus dem Goldcontainer Ihres Data Lake liest und die Tabelle auffüllt, die wir in Microsoft Purview Unified Catalog in den nächsten Abschnitten verwenden. Wenn Sie nur Speichern auswählen, wird die Überprüfung nicht ausgeführt, und die Ressourcen werden nicht angezeigt. Sobald die Überprüfung ausgeführt wird, wird die von Ihnen erstellte Überprüfung mit dem status Letzte Ausführung in der Warteschlange angezeigt. Wenn die Überprüfungslesevorgänge abgeschlossen sind, sind Ihre Ressourcen für den nächsten Abschnitt bereit. Dies kann einige Minuten oder Stunden dauern, je nachdem, wie viele Ressourcen Sie in Ihrer Quelle haben.