Preise für die Microsoft Purview Data Map

Artikel
08/23/2023

In diesem Leitfaden werden Die Preisrichtlinien für die Data Map im Microsoft Purview-Governanceportal behandelt.

Eine vollständige Preisrichtlinie für Microsoft Purview (früher Azure Purview) finden Sie in der Übersicht über die Preisrichtlinien.

Spezifische Preisdetails finden Sie auf der Preisseite für Microsoft Purview (früher Azure Purview). Dieser Artikel führt Sie durch die Features und Faktoren, die sich auf die Preise für die Microsoft Purview Data Map auswirken.

Die direkten Kosten, die sich auf die Preise für die Microsoft Purview Data Map auswirken, basieren auf den folgenden drei Dimensionen:

Elastische Datenzuordnung
Automatisierte Überprüfung & Klassifizierung
Erweiterte Ressourcensätze

Elastische Datenzuordnung

Die Data Map ist die Grundlage der Architektur des Microsoft Purview-Governanceportals und muss daher jederzeit auf dem neuesten Stand der Ressourceninformationen im Datenbestand sein.
Die Datenzuordnung wird als Kapazitätseinheit (Capacity Unit , CU) berechnet. Die Data Map wird an einem CU bereitgestellt, wenn der Katalog bis zu 10 GB Metadatenspeicher speichert und bis zu 25 Data Map-Vorgänge/Sekunde verarbeitet.
Die Data Map wird immer auf einem CU bereitgestellt, wenn ein Konto zum ersten Mal erstellt wird.
Die Datenzuordnung wird jedoch automatisch zwischen den minimalen und maximalen Grenzwerten dieses Elastizitätsfensters skaliert, um Änderungen in der Datenzuordnung in Bezug auf zwei Schlüsselfaktoren zu berücksichtigen: Vorgangsdurchsatz und Metadatenspeicher

Vorgangsdurchsatz

Ein ereignisgesteuerter Faktor, der auf den Vorgängen "Erstellen", "Lesen", "Aktualisieren" und "Löschen" basiert, die für die Datenzuordnung ausgeführt werden.
Einige Beispiele für Data Map-Vorgänge wären:
- Erstellen eines Medienobjekts in Data Map
- Hinzufügen einer Beziehung zu einer Ressource, z. B. Besitzer, Steward, Übergeordnetes Element, Herkunft
- Bearbeiten einer Ressource zum Hinzufügen von Geschäftsmetadaten wie Beschreibung, Glossarbegriff
- Schlüsselwortsuche, die Ergebnisse an die Suchergebnisseite zurückgibt
- Importieren oder Exportieren von Informationen mithilfe der API
Wenn mehrere Abfragen für die Data Map ausgeführt werden, steigt auch die Anzahl der E/A-Vorgänge, was zum Hochskalieren der Data Map führt.
Die Anzahl gleichzeitiger Benutzer ist auch ein Faktor, der die Data Map-Kapazitätseinheit regelt.
Weitere zu berücksichtigende Faktoren sind suchabfragen, API-Interaktion, Workflows, Genehmigungen usw.
Datenburstingebene
- Wenn mehr Vorgänge/Sekundendurchsatz erforderlich sind, kann die Datenzuordnung innerhalb des Elastizitätsfensters automatisch skaliert werden, um die geänderte Last zu berücksichtigen.
- Dies ist das Burstmerkmal , das geschätzt und geplant werden muss.
- Die Bursteigenschaft umfasst die Burststufe und die Burstdauer , für die der Burst vorhanden ist.
  - Die Burstebene ist ein multiplikativer Index der erwarteten konsistenten Elastizität im stabilen Zustand.
  - Die Burstdauer ist der Prozentsatz des Monats, in dem solche Bursts (an Elastizität) aufgrund wachsender Metadaten oder einer höheren Anzahl von Vorgängen in der Datenzuordnung erwartet werden.

Metadatenspeicher

Wenn sich die Anzahl der Ressourcen im Datenbestand verringert und dann in der Datenzuordnung durch nachfolgende inkrementelle Überprüfungen entfernt wird, wird die Speicherkomponente automatisch reduziert, sodass die Datenzuordnung herunterskaliert wird.

Automatisiertes Scannen, Klassifizieren und Erfassen

Es gibt zwei wichtige automatisierte Prozesse, die die Erfassung von Metadaten im Microsoft Purview Data Map auslösen können:

Automatische Überprüfungen mit nativen Connectors. Dieser Prozess umfasst drei Standard Schritte:
- Metadatenüberprüfung
- Automatische Klassifizierung
- Erfassung von Metadaten im Microsoft Purview Data Map
Automatisierte Erfassung mit Azure Data Factory und/oder Azure Synapse Pipelines. Dieser Prozess umfasst:
- Erfassung von Metadaten und Datenherkunft im Microsoft Purview Data Map, wenn das Konto mit Azure Data Factory- oder Azure Synapse-Pipelines verbunden ist.

Automatische Überprüfungen mit nativen Connectors

Bei einer vollständigen Überprüfung werden alle Ressourcen innerhalb eines ausgewählten Bereichs einer Datenquelle verarbeitet, während bei einer inkrementellen Überprüfung Ressourcen erkannt und verarbeitet werden, die seit der vorherigen erfolgreichen Überprüfung erstellt, geändert oder gelöscht wurden.
Alle Überprüfungen (vollständige oder inkrementelle Überprüfungen) werden aktualisierte, geänderte oder gelöschte Ressourcen übernehmen.
Es ist wichtig, die Szenarien zu berücksichtigen und zu vermeiden, in dem mehrere Personen oder Gruppen, die zu verschiedenen Abteilungen gehören, Scans für dieselbe Datenquelle einrichten, was zu mehr Preisen für doppelte Überprüfungen führt.
Planen Sie häufige inkrementelle Überprüfungen nach der ersten vollständigen Überprüfung entsprechend den Änderungen im Datenbestand. Dadurch wird sichergestellt, dass die Data Map immer auf dem neuesten Stand ist und die inkrementellen Scans weniger V-Kern-Stunden im Vergleich zu einer vollständigen Überprüfung verbrauchen.
Über den Link "Details anzeigen" für eine Datenquelle können Benutzer eine vollständige Überprüfung ausführen. Erwägen Sie jedoch, nach einer vollständigen Überprüfung inkrementelle Überprüfungen auszuführen, um eine optimierte Überprüfung durchzuführen, außer wenn eine Änderung des Überprüfungsregelsatzes (Klassifizierungen/Dateitypen) vorliegt.
Registrieren der Datenquelle bei einer übergeordneten Sammlung und Bereichsüberprüfungen bei der untergeordneten Sammlung mit unterschiedlichen Zugriffssteuerungen, um sicherzustellen, dass keine doppelten Scankosten anfallen
Schränken Sie die Benutzer ein, die Datenquellen für die Überprüfung über eine differenzierte Zugriffssteuerung und die Rolle "Datenquellenadministrator " mithilfe der Sammlungsautorisierung registrieren dürfen. Dadurch wird sichergestellt, dass nur gültige Datenquellen registriert werden dürfen und die Überprüfung der V-Kern-Stunden kontrolliert wird, was zu geringeren Kosten für die Überprüfung führt.
Berücksichtigen Sie, dass sich der Typ der Datenquelle und die Anzahl der überprüften Ressourcen auf die Überprüfungsdauer auswirken.
Erstellen Sie benutzerdefinierte Überprüfungsregelsätze , um nur die Teilmenge der dateitypen einzuschließen, die in Ihrem Datenbestand verfügbar sind, und Klassifizierungen , die für Ihre Geschäftlichen Anforderungen relevant sind, um eine optimale Verwendung der Scanner sicherzustellen.
Befolgen Sie beim Erstellen einer neuen Überprüfung für eine Datenquelle die empfohlene Vorbereitungsreihenfolge , bevor Sie die Überprüfung tatsächlich ausführen. Dies umfasst das Erfassen der Anforderungen für geschäftsspezifische Klassifizierungen und Dateitypen (für Speicherkonten), um die Definition geeigneter Überprüfungsregelsätze zu ermöglichen, um mehrfache Überprüfungen zu vermeiden und unnötige Kosten für mehrere Überprüfungen durch verpasste Anforderungen zu steuern.
Richten Sie Ihre Überprüfungszeitpläne an der Größe Self-Hosted Integration Runtime (SHIR) VMs (Virtual Machines) aus, um zusätzliche Kosten im Zusammenhang mit virtuellen Computern zu vermeiden.

Automatisierte Erfassung mithilfe von Azure Data Factory- und/oder Azure Synapse-Pipelines

Metadaten und Datenherkunft werden jedes Mal aus Azure Data Factory oder Azure Synapse Pipelines erfasst, wenn die Pipelines im Quellsystem ausgeführt werden.

Erweiterte Ressourcensätze

Die Microsoft Purview Data Map verwendet Ressourcensätze, um die Herausforderung zu bewältigen, eine große Anzahl von Datenressourcen einer einzelnen logischen Ressource zuzuordnen, indem sie die Möglichkeit bietet, alle Dateien im Data Lake zu scannen und Muster (GUID, Lokalisierungsmuster usw.) zu finden, um sie als einzelne Ressource in der Data Map zu gruppieren.
Advanced Resource Set ist ein optionales Feature, mit dem Kunden angereicherte Ressourcensatzinformationen wie Gesamtgröße, Partitionsanzahl usw. abrufen und die Anpassung der Ressourcensatzgruppierung über Musterregeln ermöglicht. Wenn das Erweiterte Ressourcensatzfeature nicht aktiviert ist, enthält Unified Catalog weiterhin Ressourcensatzressourcen, jedoch ohne die aggregierten Eigenschaften. In diesem Fall wird dem Kunden keine Verbrauchseinheit "Ressourcensatz" in Rechnung gestellt.
Verwenden Sie das grundlegende Ressourcensatzfeature, bevor Sie die erweiterten Ressourcensätze im Microsoft Purview Data Map aktivieren, um zu überprüfen, ob die Anforderungen erfüllt sind.
Erwägen Sie, erweiterte Ressourcensätze zu aktivieren, wenn:
- Ihr Data Lakes-Schema ändert sich ständig, und Sie suchen nach einem Mehrwert, der über das grundlegende Resource Set-Feature hinausgeht, um die Microsoft Purview Data Map zum Berechnen von Parametern wie #partitions, Größe des Datenbestands usw. als Dienst zu ermöglichen.
- Es muss angepasst werden, wie Ressourcengruppenobjekte gruppiert werden.
Es ist wichtig zu beachten, dass die Abrechnung für erweiterte Ressourcensätze auf dem Compute basiert, das vom Offlinetarif zum Aggregieren von Ressourcensatzinformationen verwendet wird, und von der Größe/Anzahl der Ressourcensätze in Ihrem Katalog abhängt.

Freigeben über