Grundlegendes zu Ressourcensätzen
In diesem Artikel erfahren Sie, wie Microsoft Purview Ressourcensätze verwendet, um Datenressourcen logischen Ressourcen zuzuordnen.
Wichtig
Das Feature "Erweiterte Ressourcengruppe" gilt nur für kundenseitig vorhandene erweiterte Ressourcengruppen, die entweder das klassische Microsoft Purview-Konto oder ein Upgrade eines klassischen Kontos auf Microsoft Purview Unified Catalog mit aktiviertem erweiterten Ressourcensatz verwenden. Dieses Feature ist für neue Kunden von Microsoft Purview mit Unified Catalog nicht verfügbar.
Hintergrundinformationen
Datenverarbeitungssysteme im großen Stil speichern in der Regel eine einzelne Tabelle im Speicher als mehrere Dateien. Im Microsoft Purview Unified Catalog wird dieses Konzept mithilfe von Ressourcensätzen dargestellt. Ein Ressourcensatz ist ein einzelnes Objekt im Katalog, das eine große Anzahl von Ressourcen im Speicher darstellt.
Angenommen, Ihr Spark-Cluster hat einen DataFrame in einer Azure Data Lake Storage Gen2-Datenquelle (ADLS) beibehalten. Obwohl die Tabelle in Spark wie eine einzelne logische Ressource aussieht, gibt es auf dem Datenträger wahrscheinlich Tausende von Parquet-Dateien, von denen jede eine Partition des gesamten DataFrame-Inhalts darstellt. IoT-Daten und Webprotokolldaten haben die gleiche Herausforderung. Angenommen, Sie verfügen über einen Sensor, der Protokolldateien mehrmals pro Sekunde ausgibt. Es dauert nicht lange, bis Sie hunderttausende Protokolldateien von diesem einzelnen Sensor haben.
So erkennt Microsoft Purview Ressourcensätze
Microsoft Purview unterstützt das Erkennen von Ressourcensätzen in Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files und Amazon S3.
Microsoft Purview erkennt beim Scannen automatisch Ressourcensätze. Dieses Feature untersucht alle Daten, die per Scan erfasst werden, und vergleicht sie mit einer Reihe von definierten Mustern.
Angenommen, Sie scannen eine Datenquelle, deren URL lautet https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. Microsoft Purview untersucht die Pfadsegmente und ermittelt, ob sie mit integrierten Mustern übereinstimmen. Es verfügt über integrierte Muster für GUIDs, Zahlen, Datumsformate, Lokalisierungscodes (z. B. en-us) usw. In diesem Fall entspricht das Zahlenmuster 23. Microsoft Purview geht davon aus, dass diese Datei Teil einer Ressourcengruppe mit dem Namen https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
ist.
Oder für eine URL wie https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
gleicht Microsoft Purview sowohl das Lokalisierungsmuster als auch das Zahlenmuster ab und erzeugt einen Ressourcensatz mit dem Namen https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
.
Mit dieser Strategie würde Microsoft Purview die folgenden Ressourcen demselben Ressourcensatz zuordnen: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Dateitypen, die Von Microsoft Purview nicht als Ressourcensätze erkannt werden
Microsoft Purview versucht absichtlich nicht, die meisten Dokumentdateitypen wie Word, Excel oder PDF als Ressourcensätze zu klassifizieren. Die Ausnahme ist das CSV-Format, da es sich um ein gängiges partitioniertes Dateiformat handelt.
So überprüft Microsoft Purview Ressourcensätze
Wenn Microsoft Purview Ressourcen erkennt, die seiner Meinung nach Teil eines Ressourcensatzes sind, wechselt es von einer vollständigen Überprüfung zu einem Beispielscan. Bei einer Beispielüberprüfung wird nur eine Teilmenge der Dateien geöffnet, von denen angenommen wird, dass sie sich im Ressourcensatz befinden. Für jede datei, die geöffnet wird, verwendet sie ihr Schema und führt ihre Klassifizierer aus. Microsoft Purview sucht dann die neueste Ressource unter den geöffneten Ressourcen und verwendet das Schema und die Klassifizierungen dieser Ressource im Eintrag für den gesamten Ressourcensatz im Katalog.
Erweiterte Ressourcensätze
Microsoft Purview kann Ihre Ressourcengruppenressourcen über die Funktion Erweiterte Ressourcensätze anpassen und weiter anreichern. Erweiterte Ressourcensätze ermöglichen Es Microsoft Purview, die zugrunde liegenden Partitionen der erfassten Daten zu verstehen, und ermöglichen die Erstellung von Ressourcensatzmusterregeln , die anpassen, wie Microsoft Purview Ressourcensätze während der Überprüfung gruppiert.
Wenn erweiterte Ressourcensätze aktiviert sind, führt Microsoft Purview zusätzliche Aggregationen aus, um die folgenden Informationen zu Ressourcensatzressourcen zu berechnen:
- Ein Beispielpfad aus einer Datei, die den Ressourcensatz enthält.
- Eine Partitionsanzahl, die angibt, aus wie vielen Dateien der Ressourcensatz besteht.
- Die Gesamtgröße aller Dateien, aus denen der Ressourcensatz besteht.
Diese Eigenschaften finden Sie auf der Ressourcendetailseite des Ressourcensatzes.
Aktivieren erweiterter Ressourcensätze
Erweiterte Ressourcensätze sind in allen neuen Microsoft Purview-Instanzen standardmäßig deaktiviert. Erweiterte Ressourcensätze können über Kontoinformationen im Verwaltungshub aktiviert werden. Nur Benutzer, die der Rolle "Datenkurator" in der Stammsammlung hinzugefügt wurden, können erweiterte Ressourcensätze-Einstellungen verwalten.
Nach dem Aktivieren erweiterter Ressourcensätze erfolgen die zusätzlichen Anreicherungen für alle neu erfassten Ressourcen. Es kann bis zu 12 Stunden dauern, bis diese Anreicherungen nach der Erfassung für Ihre Ressourcen verfügbar sind. Das Microsoft Purview-Team empfiehlt, nach dem Umschalten des Features eine Stunde zu warten, bevor neue Data Lake-Daten gescannt werden.
Wichtig
Das Aktivieren erweiterter Ressourcensätze wirkt sich auf die Aktualisierungsrate von Ressourcen und Klassifizierungserkenntnissen aus. Wenn erweiterte Ressourcensätze aktiviert sind, werden Ressourcen- und Klassifizierungserkenntnisse nur zweimal täglich aktualisiert.
Wenn Sie erweiterte Ressourcensätze aktivieren, kann es bis zu 12 Stunden dauern, bis Schemaupdates angezeigt werden.
Integrierte Ressourcensatzmuster
Microsoft Purview unterstützt die folgenden Ressourcensatzmuster. Diese Muster können als Name in einem Verzeichnis oder als Teil eines Dateinamens angezeigt werden.
RegEx-basierte Muster
Mustername | Anzeigename | Beschreibung |
---|---|---|
GUID | {GUID} | Ein global eindeutiger Bezeichner gemäß RFC 4122 |
Zahl | {N} | Mindestens eine Ziffer |
Datums-/Uhrzeitformate | {Year}{Month}{Day}{N} | Wir unterstützen verschiedene Datums-/Uhrzeitformate, aber alle werden mit {Year}[Trennzeichen]{Monat}[Trennzeichen]{Tag} oder einer Reihe von {N}s dargestellt. |
4ByteHex | {HEX} | Eine vierstellige HEX-Nummer. |
Lokalisierung | {LOC} | Ein In BCP 47 definiertes Sprachtag, sowohl -- als auch _-Namen werden unterstützt (z. B. en_ca und en-ca). |
Komplexe Muster
Mustername | Anzeigename | Beschreibung |
---|---|---|
SparkPath | {SparkPartitions} | Bezeichner der Spark-Partitionsdatei |
Date(yyyy/mm/tt)InPath | {Year}/{Month}/{Day} | Muster "Jahr/Monat/Tag", das sich über mehrere Ordner erstreckt |
Anzeige von Ressourcensätzen in Unified Catalog
Wenn Microsoft Purview eine Gruppe von Ressourcen einem Ressourcensatz zuordnet, wird versucht, die nützlichsten Informationen zu extrahieren, die als Anzeigename im Katalog verwendet werden können. Einige Beispiele für die angewendete Standardbenennungskonvention:
Beispiel 1
Qualifizierter Name: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Anzeigename: "Name der Spark-Ausgabe"
Beispiel 2
Qualifizierter Name: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Anzeigename: "Meine partitionierten Daten"
Beispiel 3
Qualifizierter Name: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Anzeigename: "data"
Anpassen der Ressourcensatzgruppierung mithilfe von Musterregeln
Beim Überprüfen eines Speicherkontos verwendet Microsoft Purview eine Reihe definierter Muster, um zu bestimmen, ob eine Gruppe von Ressourcen eine Ressourcengruppe ist. In einigen Fällen spiegelt die Ressourcensatzgruppierung von Microsoft Purview Möglicherweise nicht genau Ihren Datenbestand wider. Diese Probleme können folgendes umfassen:
- Kennzeichnen eines Medienobjekts fälschlicherweise als Ressourcensatz.
- Platzieren eines Medienobjekts in den falschen Ressourcensatz.
- Eine Ressource fälschlicherweise als nicht als Ressourcensatz gekennzeichnet.
Um anzupassen oder außer Kraft zu setzen, wie Microsoft Purview erkennt, welche Ressourcen als Ressourcensätze gruppiert sind und wie sie im Katalog angezeigt werden, können Sie Musterregeln im Verwaltungscenter definieren. Schritt-für-Schritt-Anweisungen und Syntax finden Sie unter Ressourcensatzmusterregeln.
Bekannte Einschränkungen bei Ressourcensätzen
- Ressourcensatzressourcen werden standardmäßig nur bei einer Überprüfung gelöscht, wenn erweiterte Ressourcensätze aktiviert sind. Wenn diese Funktion deaktiviert ist, können Ressourcensatzressourcen nur manuell oder über die API gelöscht werden.
Nächste Schritte
Informationen zu den ersten Schritten mit Microsoft Purview finden Sie unter Schnellstart: Erstellen eines Microsoft Purview-Kontos.