Metadatenstandards
Die Metadatenverwaltung spielt in der Datenarchitektur eine entscheidende Rolle. Metadaten sind Daten zu anderen Daten. Sie beschreiben Daten und bieten eine Referenz zum Auffinden, Schützen und Steuern von Daten. Metadaten binden auch Daten aneinander. Sie können verwendet werden, um die Integrität und Qualität der Daten zu überprüfen, Daten an einen neuen Speicherort zu leiten oder zu replizieren, Daten zu transformieren und die Bedeutung von Daten zu vermitteln. Darüber hinaus sind Metadaten für die Demokratisierung von Daten über Self-Service-Portale unerlässlich.
In der Branche werden zunehmend Portale mit Metadatennutzung eingesetzt, um Datenerkenntnisse näher an Datenanalysten und wissenschaftliche Fachkräfte für Daten heranzurücken. Dieser Trend wird als Dateneinblick bezeichnet. Beim Dateneinblick kommen Konzepte wie Metadaten-Lake, Wissensgraphen oder Metadatengraphen zum Einsatz, um Plattformen mit zentralisierten Metadaten zu beschreiben. Es ist eine gute Möglichkeit für Sie, eine einheitliche Ansicht darüber zu erstellen, wie Daten in Ihrer Organisation verwendet und beschafft werden, wenn Sie ein verteiltes Data Mesh verwenden.
Eine gute Metadatenverwaltungsstrategie entwickelt sich nach und nach. Sie beginnt einfach und klein, indem sie zuerst die wichtigsten Bereiche identifiziert. Eine gute Metadatenverwaltungsstrategie wird auch durch Dienste und klare Prozesse unterstützt. Zu Beginn empfiehlt es sich, sich mit den verschiedenen Metadatenkategorien vertraut zu machen:
- Geschäftsmetadaten beschreiben alle Aspekte, die für Governance sowie für das Auffinden und Verstehen von Daten verwendet werden. Beispiele sind etwa Unternehmensbegriffe, Definitionen und Informationen zu Datenbesitz, -nutzung und -herkunft.
- Technische Metadaten beschreiben die strukturellen Aspekte von Daten zur Entwurfszeit. Beispiele sind etwa Schemainformationen, Informationen zu Datenformat und Protokoll sowie Verschlüsselungs- und Entschlüsselungsschlüssel.
- Betriebsmetadaten beschreiben die Verarbeitungsaspekte von Daten zur Laufzeit. Beispiele sind etwa Prozessinformationen, Ausführungszeit, Informationen zu Prozessfehlern sowie Auftrags-IDs.
- Soziale Metadaten beschreiben die Benutzerperspektive der Daten basierend auf den zugehörigen Consumern. Beispiele sind etwa Informationen zur Nutzung und Benutzernachverfolgung, Suchergebnisdaten, Filter und Klicks, Anzeigedauer, Profiltreffer und Kommentare.
In einer dezentralen Datenarchitektur stellt die Metadatenverwaltung eine organisatorische Herausforderung dar, bei der eine Balance zwischen zentral verwalteten Metadaten und im Verbund verwalteten Metadaten gefunden werden muss. Bei der Planung Ihrer Metadatenverwaltung müssen Sie Teams und Funktionen für Analysen auf Cloudebene in Azure verstehen. Die Verwendung einer zusammenarbeitsbasierten Datenverwaltungspraxis verbessert die Kommunikation, Integration und Datenflussautomatisierung zwischen Ihren Teams. Die Komplexität der Metadatenverwaltung lässt sich durch die richtige Balance zwischen zentraler Governance und Domänenbesitz zumindest teilweise vereinfachen.
Stellen Sie sich folgende Fragen, wenn Sie zu Beginn der Implementierung entscheiden, welche Metadaten zentral verwaltet oder mit Ihren Datendomänen verbunden werden sollen:
- Welche Geschäftsmetadaten sind kritisch?
- Welche technischen Metadaten werden für Interoperabilität benötigt?
- Von welchen Prozessen und Datenströmen werden die Daten erfasst?
- Wo werden die Modelle oder Schemas erstellt und verwaltet?
- Welche Informationen müssen Teams zentral bereitstellen, damit die für Datengovernance zuständige Abteilung richtig arbeiten kann?
Anhand Ihrer Antworten auf diese Fragen können Sie den Inhaltslebenszyklus für jeden Ihrer Metadatenströme ausarbeiten und alle Abhängigkeiten bestimmen. Anschließend verfügen Sie über ein Metadatenmodell, das Geschäftsbereiche, Prozesse, Technologien und Daten miteinander verbinden kann.
Wenn Sie wissen, welche Metadaten Sie benötigen, müssen Sie einen Ort auswählen, an dem sie gespeichert und verarbeitet werden können. Dazu können Sie die Microsoft Purview verwenden.
Verwenden von Microsoft Purview zum Verwalten Ihres gesamten Datenbestands
Microsoft Purview ist eine Lösung für vereinheitlichte Datengovernance, mit der Sie Ihre lokalen, Multi-Cloud- und SaaS-Daten (Software-as-a-Service) verwalten und steuern können. Es ermöglicht eine Metadatenverwaltung in großem Umfang, da es sich um einen vollautomatischen Dienst handelt, der auf intelligente Weise die Datenerkennung, das Scannen von Daten, die Datenqualität und die Zugriffsverwaltung durchführt. Außerdem bietet der Dienst eine ganzheitliche Karte mit zahlreichen Erkenntnissen zur Architektur Ihres Datengitters.
Microsoft Purview ist eine umfassende Sammlung von Lösungen, die Ihrer Organisation helfen können, Daten unabhängig von ihrem Speicherort zu steuern, zu schützen und zu verwalten. Microsoft Purview-Lösungen bieten eine integrierte Coverage und helfen dabei, die Fragmentierung von Daten in Organisationen und die fehlende Sichtbarkeit, die Datenschutz und Governance behindert, zu beseitigen und zu einer besseren Abgrenzung der traditionellen IT-Verwaltungsrollen beizutragen.
Microsoft Purview kombiniert Datengovernance- und Compliancelösungen und -dienste in einer einheitlichen Plattform, um Ihre Organisation bei Folgendem zu unterstützen:
- Einblicke in Daten Ihrer Organisation zu gewinnen
- Vertrauliche Daten über ihren gesamten Lebenszyklus hinweg zu schützen und zu verwalten, unabhängig davon, wo sie gespeichert sind
- Daten nahtlos auf neue, umfassende Weise zu verwalten
- Kritische Datenrisiken und regulatorische Anforderungen zu verwalten
Führen Sie bei der Implementierung von Microsoft Purview nicht zu schnell zu viele Änderungen und Komplexität ein. Technische Metadaten sind die Grundlage von Microsoft Purview. Sie müssen Ihre Metadaten sammeln und strukturieren, um sie sinnvoll interpretieren zu können.
Sobald Sie über Ihre Metadaten verfügen, können Sie mit den Grundlagen beginnen:
- Unternehmensbegriffe
- Listen autoritativer Datenquellen
- Datenbankenlisten
- Governancedomänen
- Schemainformationen
- Datenbesitz
- Data Stewards
- Sicherheit
- Datenqualität
Danach können Sie skalieren, indem Sie nach und nach mehr Domänenbesitzer und Data Stewards einbeziehen und weitere Klassifizierungen und Vertraulichkeitsbezeichnungen hinzufügen. Diese Ergänzungen verbessern die Sucherfahrung und ermöglichen eine bessere Datenzugriffsverwaltung.
Microsoft Purview bietet ein Feature namens Governance-Domänen, das Grenzen für einheitliche Governance, Besitz und Ermittlung von Datenprodukten und Geschäftskonzepten innerhalb Ihrer domänenorientierten Architektur festlegt. Weitere Informationen finden Sie unter Governancedomänen in Microsoft Purview.
Erstellen eines Wissensgraphen mithilfe von Azure Cosmos DB
Eine Dateneinblicklösung muss die Datennutzung sowie die Beziehungen zwischen Entitäten wie Quelldaten und Datenprodukten sowie zwischen Datenprodukten aus einer Domäne und abhängigen Produkten aus einer anderen Domäne beschreiben. Sie können eine Graphdatenbank oder eine benutzerdefinierte Benutzeroberfläche verwenden, um diese Beziehungen zu modellieren.
Wenn Sie eine einheitliche Ansicht der Daten Ihrer Organisation mit einer benutzerdefinierten Benutzeroberfläche erstellen möchten, sehen Sie sich Azure Cosmos DB an. Azure Cosmos DB ist ein global verteilter Datenbankdienst mit Unterstützung mehrerer Modelle und mit NoSQL-Endpunkten. Er stellt über Azure Cosmos DB for Apache Gremlin einen Graphdatenbankdienst zu Speicherung umfangreicher Graphen mit Milliarden von Vertizes und Edges bereit.
Das Endergebnis der Azure Cosmos DB-Architektur ist ein organisationsweiter Graph, der eine einheitliche Ansicht aller Daten in Ihrer Organisation mit End-to-End-Kontext bereitstellt. Der Metadaten-Lake wird nicht nur zum Speichern von Informationen verwendet. Er strukturiert auch aktiv Ihre Metadaten als Graph, indem er sie mit anderen Diensten und Tools verbindet. Dieser strukturierte Graph ermöglicht übergreifendes Korrelieren zahlreicher Themenbereiche. Hierzu zählen beispielsweise:
- Domänen
- Datenqualität
- Datennutzung
- Geschäftsfunktionen
- Anwendungsfunktionen
- Technische Architekturinformationen
- Betriebsereignisse
- Organisationsmetadaten
- Metadaten zum Anwendungsbesitz
- Standortinformationen
- Informationen zur Verwaltung des Anwendungslebenszyklus