Erstellen von Ressourcensatzmusterregeln
Datenverarbeitungssysteme im großen Stil speichern in der Regel eine einzelne Tabelle im Speicher als mehrere Dateien. Dieses Konzept wird in Microsoft Purview mithilfe von Ressourcensätzen dargestellt. Ein Ressourcensatz ist ein einzelnes Objekt in Microsoft Purview Unified Catalog, das eine große Anzahl von Ressourcen im Speicher darstellt. Weitere Informationen finden Sie unter Grundlegendes zu Ressourcensätzen.
Beim Überprüfen eines Speicherkontos verwendet Microsoft Purview eine Reihe definierter Muster, um zu bestimmen, ob eine Gruppe von Ressourcen eine Ressourcengruppe ist. In einigen Fällen spiegelt die Ressourcensatzgruppierung von Microsoft Purview Ihren Datenbestand möglicherweise nicht genau wider. Mit Ressourcensatzmusterregeln können Sie anpassen oder überschreiben, wie Microsoft Purview erkennt, welche Ressourcen als Ressourcensätze gruppiert werden und wie sie im Katalog angezeigt werden.
Musterregeln werden derzeit in den folgenden Quelltypen unterstützt:
- Azure Data Lake Storage Gen2
- Azure Blob Storage
- Azure Files
- Amazon S3
Der Erweiterte Ressourcensatz-Featuresatz muss aktiviert sein, um Musterregeln für Ressourcensätze zu erstellen. Weitere Informationen finden Sie unter Grundlegendes zu erweiterten Ressourcensätzen.
Erstellen einer Musterregel für Ressourcensätze
Führen Sie die folgenden Schritte aus, um eine neue Ressourcensatzmusterregel zu erstellen:
Wechseln Sie zur Data Map. Wählen Sie im Menü unter der Überschrift Quellverwaltung die Option Musterregeln aus. Wählen Sie + Neu aus, um einen neuen Regelsatz zu erstellen.
Geben Sie den Bereich Ihrer Ressourcensatzmusterregel ein. Wählen Sie ihren Speicherkontotyp und den Namen des Speicherkontos aus, für das Sie einen Regelsatz erstellen möchten. Jeder Satz von Regeln wird relativ zu einem Ordnerpfadbereich angewendet, der im Feld Ordnerpfad angegeben ist.
Wählen Sie + Neue Regel aus, um eine Regel für einen Konfigurationsbereich einzugeben.
Geben Sie in die folgenden Felder ein, um eine Regel zu erstellen:
Regelname: Der Name der Konfigurationsregel. Dieses Feld hat keine Auswirkungen auf die Ressourcen, auf die die Regel angewendet wird.
Qualifizierter Name: Ein qualifizierter Pfad, der eine Kombination aus Text, dynamischen Ersetzungen und statischen Ersetzungen verwendet, um Ressourcen mit der Konfigurationsregel abzugleichen. Dieser Pfad ist relativ zum Bereich der Konfigurationsregel. Ausführliche Anweisungen zum Angeben qualifizierter Namen finden Sie weiter unten im Syntaxabschnitt .
Anzeigename: Der Anzeigename des Medienobjekts. Dieses Feld ist optional. Verwenden Sie Nur-Text- und statische Ersetzungsmodule, um die Anzeige eines Medienobjekts im Katalog anzupassen. Ausführlichere Anweisungen finden Sie weiter unten im Syntaxabschnitt .
Gruppierung nicht als Ressourcensatz: Wenn diese Option aktiviert ist, wird die übereinstimmene Ressource nicht in einem Ressourcensatz gruppiert.
Speichern Sie die Regel, indem Sie Hinzufügen auswählen.
Hinweis
Nachdem eine Musterregel erstellt wurde, wenden alle neuen Überprüfungen die Regel während der Erfassung an. Vorhandene Ressourcen in Unified Catalog werden über einen Hintergrundprozess aktualisiert, der einige Stunden dauern kann.
Musterregelsyntax
Verwenden Sie beim Erstellen von Ressourcensatzmusterregeln die folgende Syntax, um anzugeben, für welche Ressourcenregeln gelten.
Dynamische Ersetzungen (einfache Klammern)
Einzelne Klammern werden als dynamische Ersetzungsmodule in Musterregeln verwendet. Geben Sie einen dynamischen Ersetzungsmodus im qualifizierten Namen im Format {<replacerName>:<replacerType>}
an. Wenn eine Übereinstimmung besteht, werden dynamische Ersetzungsmodule als Gruppierungsbedingung verwendet, die angibt, dass Ressourcen als Ressourcensatz dargestellt werden sollen. Wenn die Ressourcen in einem Ressourcensatz gruppiert sind, enthält {replacerName}
der qualifizierte Pfad der Ressourcengruppe den Speicherort, an dem der Ersetzungstyp angegeben wurde.
Wenn z. B. zwei Ressourcen folder1/file-1.csv
mit der Regel {folder:string}/file-{NUM:int}.csv
übereinstimmen, wäre der Ressourcensatz eine einzelne Entität {folder}/file-{NUM}.csv
folder2/file-2.csv
.
Sonderfall: Dynamische Ersetzungen, wenn sie nicht in einer Ressourcengruppe gruppiert werden
Wenn Nicht als Ressourcensatz gruppieren für eine Musterregel aktiviert ist, ist der Ersetzungsname ein optionales Feld.
{:<replacerType>}
ist eine gültige Syntax. Würde z. B file-{:int}.csv
. erfolgreich für file-1.csv
und file-2.csv
übereinstimmen und zwei verschiedene Ressourcen anstelle eines Ressourcensatzes erstellen.
Statische Ersetzungen (doppelte Klammern)
Doppelte Klammern werden als statische Ersetzungen im qualifizierten Namen einer Musterregel verwendet. Geben Sie einen statischen Ersetzungsmodus im qualifizierten Namen im Format {{<replacerName>:<replacerType>}}
an. Wenn eine Übereinstimmung besteht, erstellt jeder Satz eindeutiger statischer Ersetzungswerte unterschiedliche Ressourcensatzgruppierungen.
Wenn z. B. zwei Ressourcen folder1/file-1.csv
und folder2/file-2.csv
mit der Regel {{folder:string}}/file-{NUM:int}.csv
übereinstimmen, werden zwei Ressourcensätze und folder2/file-{NUM}.csv
erstelltfolder1/file-{NUM}.csv
.
Statische Ersetzungen können verwendet werden, um den Anzeigenamen eines Medienobjekts anzugeben, das mit einer Musterregel übereinstimmt. Wenn Im {{<replacerName>}}
Anzeigenamen einer Regel verwendet wird, wird der übereinstimmene Wert im Ressourcennamen verwendet.
Verfügbare Ersatztypen
Im Folgenden finden Sie die verfügbaren Typen, die in statischen und dynamischen Ersetzungsvorgängen verwendet werden können:
Typ | Structure |
---|---|
string | Eine Reihe von einem oder mehreren Unicode-Zeichen, einschließlich Trennzeichen wie Leerzeichen. |
int | Eine Reihe von 1 oder mehr 0-9 ASCII-Zeichen kann mit dem Präfix 0 (z. B. 0001) versehen werden. |
GUID | Eine Reihe von 32 oder 8-4-4-4-4-12 Zeichenfolgendarstellung einer UUID, wie in RFC 4122 definiert. |
date | Eine Reihe von 6 oder 8 0-9 ASCII-Zeichen mit optionalen Trennzeichen: yyyymmdd, yyyy-mm-tt, yymmdd, yyy-mm-tt, angegeben in RFC 3339. |
Uhrzeit | Eine Reihe von 4 oder 6 0-9 ASCII-Zeichen mit optionalen Trennzeichen: HHmm, HH:mm, HHmmss, HH:mm:ss angegeben in RFC 3339. |
Zeitstempel | Eine Reihe von 12 oder 14 0-9 ASCII-Zeichen mit optionalen Trennzeichen: yyyy-mm-ttTHH:mm, yyyyymmddhhmm, yyyyy-mm-ddTHH:mm:ss, yyyyymmddHHHmmsss, angegeben in RFC 3339. |
Boolescher Wert | Kann "true" oder "false" enthalten, wobei die Groß-/Kleinschreibung nicht beachtet wird. |
number | Eine Reihe von 0 oder mehr 0-9 ASCII-Zeichen, kann 0 präfixiert sein (z. B. 0001), gefolgt von optional einem Punkt "." und einer Reihe von 1 oder mehr 0-9 ASCII-Zeichen. Es kann 0 postfixed sein (z. B. .100). |
Fluch | Eine Reihe von einem oder mehreren ASCII-Zeichen aus dem Satz 0-1 und A-F. Der Wert kann mit dem Präfix 0 versehen werden. |
Gebietsschema | Eine Zeichenfolge, die der in RFC 5646 angegebenen Syntax entspricht. |
Reihenfolge der angewendeten Musterregeln für Ressourcensätze
Im Folgenden finden Sie die Reihenfolge der Vorgänge zum Anwenden von Musterregeln:
Spezifischere Bereiche haben Priorität, wenn ein Medienobjekt zwei Regeln entspricht. Regeln in einem Bereich
container/folder
gelten beispielsweise vor Regeln im Bereichcontainer
.Reihenfolge der Regeln innerhalb eines bestimmten Bereichs. Dies kann in der Benutzeroberfläche bearbeitet werden.
Wenn ein Medienobjekt keiner angegebenen Regel entspricht, gilt die Standardmäßige Ressourcensatzheuristik.
Beispiele
Beispiel 1
SAP-Datenextraktion in vollständige und Deltalasten
Eingaben
Dateien:
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt
Musterregel
Umfang:https://myazureblob.blob.core.windows.net/bar/
Anzeigename: "Externer Kunde"
Qualifizierter Name:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt
Ressourcensatz: true
Ausgabe
Ein Ressourcensatzobjekt
Anzeigename: Externer Kunde
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt
Beispiel 2
IoT-Daten im Avro-Format
Eingaben
Dateien:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Musterregeln
Umfang:https://myazureblob.blob.core.windows.net/bar/
Regel 1
Anzeigename: "machine-89"
Qualifizierter Name:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro
Ressourcensatz: true
Regel 2
Anzeigename: "machine-90"
Qualifizierter Name:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro
Ressourcensatz: true
Ausgaben
Zwei Ressourcensätze
Ressourcensatz 1
Anzeigename: computer-89
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Ressourcensatz 2
Anzeigename: computer-90
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Beispiel 3
IoT-Daten im Avro-Format
Eingaben
Dateien:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Musterregel
Umfang:https://myazureblob.blob.core.windows.net/bar/
Anzeigename: 'Machine-{{machineid}}'
Qualifizierter Name:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro
Ressourcensatz: true
Ausgaben
Ressourcensatz 1
Anzeigename: computer-89
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Ressourcensatz 2
Anzeigename: computer-90
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Beispiel 4
Gruppieren Sie sich nicht in Ressourcensätzen.
Eingaben
Dateien:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Musterregel
Umfang:https://myazureblob.blob.core.windows.net/bar/
Anzeigename:Machine-{{machineid}}
Qualifizierter Name:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro
Ressourcensatz: false
Ausgaben
Vier einzelne Ressourcen
Medienobjekt 1
Anzeigename: computer-89
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
Medienobjekt 2
Anzeigename: computer-89
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
Medienobjekt 3
Anzeigename: computer-89
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
Medienobjekt 4
Anzeigename: computer-90
Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Nächste Schritte
Beginnen Sie mit der Registrierung und Überprüfung eines Azure Data Lake Gen2-Speicherkontos.