Creare regole del modello di set di risorse
I sistemi di elaborazione dati su larga scala archiviano in genere una singola tabella nell'archiviazione come più file. Questo concetto è rappresentato in Microsoft Purview usando set di risorse. Un set di risorse è un singolo oggetto nel catalogo dati che rappresenta un numero elevato di asset nell'archiviazione. Per altre informazioni, vedere Informazioni sui set di risorse.
Durante l'analisi di un account di archiviazione, Microsoft Purview usa un set di modelli definiti per determinare se un gruppo di asset è un set di risorse. In alcuni casi, il raggruppamento del set di risorse di Microsoft Purview potrebbe non riflettere accuratamente il patrimonio dati. Le regole del modello di set di risorse consentono di personalizzare o ignorare il modo in cui Microsoft Purview rileva quali asset sono raggruppati come set di risorse e come vengono visualizzati all'interno del catalogo.
Le regole del modello sono attualmente supportate nei tipi di origine seguenti:
- Azure Data Lake Storage Gen2
- Archiviazione BLOB di Azure
- File di Azure
- Amazon S3
Il set di funzionalità Set di risorse avanzato deve essere abilitato per creare regole del modello di set di risorse. Per altre informazioni, vedere Informazioni sui set di risorse avanzati.
Come creare una regola del modello di set di risorse
Seguire la procedura seguente per creare una nuova regola del modello di set di risorse:
Passare alla mappa dati. Selezionare Regole modello dal menu sotto l'intestazione Gestione origine. Selezionare + Nuovo per creare un nuovo set di regole.
Immettere l'ambito della regola del modello del set di risorse. Selezionare il tipo di account di archiviazione e il nome dell'account di archiviazione in cui si vuole creare un set di regole. Ogni set di regole viene applicato rispetto a un ambito del percorso della cartella specificato nel campo Percorso cartella .
Per immettere una regola per un ambito di configurazione, selezionare + Nuova regola.
Immettere nei campi seguenti per creare una regola:
Nome regola: Nome della regola di configurazione. Questo campo non ha alcun effetto sugli asset a cui si applica la regola.
Nome completo: Percorso completo che usa una combinazione di testo, sostitutori dinamici e sostitutori statici per associare gli asset alla regola di configurazione. Questo percorso è relativo all'ambito della regola di configurazione. Per istruzioni dettagliate su come specificare i nomi qualificati, vedere la sezione relativa alla sintassi seguente.
Nome visualizzato: Nome visualizzato dell'asset. Questo campo è facoltativo. Usare il testo normale e i sostitutori statici per personalizzare la modalità di visualizzazione di un asset nel catalogo. Per istruzioni più dettagliate, vedere la sezione relativa alla sintassi seguente.
Non raggruppare come set di risorse: Se abilitata, la risorsa corrispondente non verrà raggruppata in un set di risorse.
Salvare la regola selezionando Aggiungi.
Nota
Dopo aver creato una regola di modello, tutte le nuove analisi applicheranno la regola durante l'inserimento. Gli asset esistenti nel catalogo dati verranno aggiornati tramite un processo in background che può richiedere fino a poche ore.
Sintassi delle regole del modello
Quando si creano regole del modello di set di risorse, usare la sintassi seguente per specificare a quali regole di asset si applicano.
Sostitutori dinamici (parentesi quadre singole)
Le singole parentesi quadre vengono usate come sostitutori dinamici in regole di modello. Specificare un replacer dinamico nel nome completo usando il formato {<replacerName>:<replacerType>}
. In caso di corrispondenza, i sostitutori dinamici vengono usati come condizione di raggruppamento che indicano che gli asset devono essere rappresentati come set di risorse. Se gli asset sono raggruppati in un set di risorse, il percorso completo del set di risorse conterrà {replacerName}
la posizione in cui è stato specificato il replacer.
Ad esempio, se due asset folder1/file-1.csv
e folder2/file-2.csv
corrispondevano alla regola {folder:string}/file-{NUM:int}.csv
, il set di risorse sarebbe una singola entità {folder}/file-{NUM}.csv
.
Caso speciale: Sostituisci dinamici quando non si esegue il raggruppamento in un set di risorse
Se Non raggruppare come set di risorse è abilitato per una regola del modello, il nome del replacer è un campo facoltativo.
{:<replacerType>}
è una sintassi valida. Ad esempio, file-{:int}.csv
corrisponderebbe correttamente a file-1.csv
e file-2.csv
e creerebbe due asset diversi anziché un set di risorse.
Sostituisci statici (parentesi doppie)
Le doppie parentesi quadre vengono usate come sostitutori statici nel nome completo di una regola di modello. Specificare un replacer statico nel nome completo usando il formato {{<replacerName>:<replacerType>}}
. Se viene trovata una corrispondenza, ogni set di valori di sostituzione statici univoci creerà raggruppamenti di set di risorse diversi.
Ad esempio, se due asset folder1/file-1.csv
e folder2/file-2.csv
corrispondevano alla regola {{folder:string}}/file-{NUM:int}.csv
, verranno creati folder1/file-{NUM}.csv
due set di risorse e folder2/file-{NUM}.csv
.
I sostitutori statici possono essere usati per specificare il nome visualizzato di un asset corrispondente a una regola del modello. L'uso {{<replacerName>}}
nel nome visualizzato di una regola userà il valore corrispondente nel nome dell'asset.
Tipi di sostituzione disponibili
Di seguito sono riportati i tipi disponibili che possono essere usati nei replacer statici e dinamici:
Tipo | Struttura |
---|---|
stringa | Serie di uno o più caratteri Unicode, inclusi delimitatori come gli spazi. |
int | Una serie di 1 o più 0-9 caratteri ASCII, può essere preceduto da 0 (ad esempio, 0001). |
guid | Serie di rappresentazione di stringa 32 o 8-4-4-4-12 di un UUID come definito in RFC 4122. |
data | Serie di 6 o 8 0-9 caratteri ASCII con separatori facoltativamente: aaaammgg, aaaa-mm-gg, aammgg, aa-mm-gg, specificata in RFC 3339. |
Ore | Serie di 4 o 6 0-9 caratteri ASCII con separatori facoltativamente: HHmm, HH:mm, HHmmss, HH:mm:ss specificati in RFC 3339. |
Timestamp | Serie di 12 o 14 0-9 caratteri ASCII con separatori facoltativamente: aaaa-mm-ddTHH:mm, aaaammddhhmm, aaaa-mm-ddTHH:mm:ss, aaaammddHHmmss specificati in RFC 3339. |
booleano | Può contenere 'true' o 'false', senza distinzione tra maiuscole e minuscole. |
numero | Una serie di 0 o più 0-9 caratteri ASCII, può essere preceduto da 0 (ad esempio, 0001) seguito facoltativamente da un punto '.' e una serie di 1 o più 0-9 caratteri ASCII, può essere 0 suffisso (ad esempio, .100) |
malocchio | Una serie di uno o più caratteri ASCII del set 0-1 e A-F, il valore può essere preceduto da 0 |
scena | Stringa che corrisponde alla sintassi specificata in RFC 5646. |
Ordine delle regole del modello di set di risorse applicate
Di seguito è riportato l'ordine delle operazioni per l'applicazione delle regole del modello:
Gli ambiti più specifici avranno la priorità se un asset corrisponde a due regole. Ad esempio, le regole in un ambito
container/folder
verranno applicate prima delle regole nell'ambitocontainer
.Ordine delle regole all'interno di un ambito specifico. Questa operazione può essere modificata nell'esperienza utente.
Se un asset non corrisponde a una regola specificata, viene applicata l'euristica predefinita del set di risorse.
Esempi
Esempio 1
Estrazione dei dati SAP in carichi completi e differenziari
Input
file:
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt
Regola modello
Portata:https://myazureblob.blob.core.windows.net/bar/
Nome visualizzato: 'Cliente esterno'
Nome qualificato:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt
Set di risorse: true
Output
Un asset del set di risorse
Nome visualizzato: Cliente esterno
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt
Esempio 2
Dati IoT in formato avro
Input
file:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regole del modello
Portata:https://myazureblob.blob.core.windows.net/bar/
Regola 1
Nome visualizzato: 'machine-89'
Nome qualificato:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro
Set di risorse: true
Regola 2
Nome visualizzato: 'machine-90'
Nome qualificato:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro
Set di risorse: true
Output
Due set di risorse
Set di risorse 1
Nome visualizzato: machine-89
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Set di risorse 2
Nome visualizzato: machine-90
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Esempio 3
Dati IoT in formato avro
Input
file:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regola modello
Portata:https://myazureblob.blob.core.windows.net/bar/
Nome visualizzato: 'Machine-{{machineid}}'
Nome qualificato:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro
Set di risorse: true
Output
Set di risorse 1
Nome visualizzato: machine-89
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Set di risorse 2
Nome visualizzato: machine-90
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Esempio 4
Non raggruppare in set di risorse
Input
file:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regola modello
Portata:https://myazureblob.blob.core.windows.net/bar/
Nome visualizzato:Machine-{{machineid}}
Nome qualificato:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro
Set di risorse: false
Output
Quattro singoli asset
Asset 1
Nome visualizzato: machine-89
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
Asset 2
Nome visualizzato: machine-89
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
Asset 3
Nome visualizzato: machine-89
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
Asset 4
Nome visualizzato: machine-90
Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Passaggi successivi
Per iniziare, registrare ed analizzare un account di archiviazione di Azure Data Lake Gen2.