Informazioni sui set di risorse
Questo articolo illustra come Microsoft Purview usa i set di risorse per eseguire il mapping degli asset di dati alle risorse logiche.
Importante
Questa funzionalità è applicabile solo ai clienti esistenti del set di risorse avanzato. Questo non è disponibile per i nuovi clienti di Microsoft Purview.
Informazioni di sfondo
I sistemi di elaborazione dati su larga scala archiviano in genere una singola tabella nell'archiviazione come più file. Nel Microsoft Purview Data Catalog questo concetto è rappresentato dall'uso di set di risorse. Un set di risorse è un singolo oggetto nel catalogo che rappresenta un numero elevato di asset nell'archiviazione.
Si supponga, ad esempio, che il cluster Spark abbia salvato in modo permanente un dataframe in un'origine dati ad Azure Data Lake Storage (ADLS) Gen2. Anche se in Spark la tabella è simile a una singola risorsa logica, sul disco sono probabilmente presenti migliaia di file Parquet, ognuno dei quali rappresenta una partizione del contenuto totale del dataframe. I dati IoT e i dati del log Web presentano la stessa sfida. Si supponga di avere un sensore che restituisce i file di log più volte al secondo. Non ci vorrà molto prima di avere centinaia di migliaia di file di log da quel singolo sensore.
Come Microsoft Purview rileva i set di risorse
Microsoft Purview supporta il rilevamento di set di risorse in Archiviazione BLOB di Azure, ADLS Gen1, ADLS Gen2, File di Azure e Amazon S3.
Microsoft Purview rileva automaticamente i set di risorse durante l'analisi. Questa funzionalità esamina tutti i dati inseriti tramite l'analisi e la confronta con un set di modelli definiti.
Si supponga, ad esempio, di analizzare un'origine dati il cui URL è https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. Microsoft Purview esamina i segmenti di percorso e determina se corrispondono a modelli predefiniti. Ha modelli predefiniti per GUID, numeri, formati di data, codici di localizzazione (ad esempio en-us) e così via. In questo caso, il modello numerico corrisponde a 23. Microsoft Purview presuppone che questo file faccia parte di un set di risorse denominato https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
.
In alternativa, per un URL come https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
, Microsoft Purview corrisponde sia al modello di localizzazione che al modello numerico, producendo un set di risorse denominato https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
.
Usando questa strategia, Microsoft Purview eseguirà il mapping delle risorse seguenti allo stesso set di risorse: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Tipi di file che Microsoft Purview non rileverà come set di risorse
Microsoft Purview intenzionalmente non tenta di classificare la maggior parte dei tipi di file di documento come Word, Excel o PDF come set di risorse. L'eccezione è il formato CSV perché è un formato di file partizionato comune.
Come Microsoft Purview analizza i set di risorse
Quando Microsoft Purview rileva le risorse che ritiene far parte di un set di risorse, passa da un'analisi completa a un'analisi di esempio. Un'analisi di esempio apre solo un subset dei file che ritiene presenti nel set di risorse. Per ogni file aperto, usa il relativo schema ed esegue i relativi classificatori. Microsoft Purview trova quindi la risorsa più recente tra le risorse aperte e usa lo schema e le classificazioni di tale risorsa nella voce per l'intero set di risorse nel catalogo.
Set di risorse avanzati
Microsoft Purview può personalizzare e arricchire ulteriormente gli asset del set di risorse tramite la funzionalità Set di risorse avanzati . I set di risorse avanzati consentono a Microsoft Purview di comprendere le partizioni sottostanti dei dati inseriti e consente la creazione di regole del modello di set di risorse che consentono di personalizzare il modo in cui Microsoft Purview raggruppa i set di risorse durante l'analisi.
Quando sono abilitati i set di risorse avanzati, Microsoft Purview esegue aggregazioni aggiuntive per calcolare le informazioni seguenti sugli asset del set di risorse:
- Percorso di esempio da un file che include il set di risorse.
- Numero di partizioni che mostra il numero di file che costituiscono il set di risorse.
- Dimensioni totali di tutti i file che costituiscono il set di risorse.
Queste proprietà sono disponibili nella pagina dei dettagli dell'asset del set di risorse.
Attivazione di set di risorse avanzati
I set di risorse avanzati sono disattivati per impostazione predefinita in tutte le nuove istanze di Microsoft Purview. I set di risorse avanzati possono essere abilitati dalle informazioni sull'account nell'hub di gestione. Solo gli utenti aggiunti al ruolo Curatore dati nella raccolta radice possono gestire le impostazioni dei set di risorse avanzati.
Dopo aver abilitato i set di risorse avanzati, gli arricchimenti aggiuntivi si verificheranno su tutti gli asset appena inseriti. Questi arricchimenti potrebbero richiedere fino a 12 ore per essere disponibili negli asset dopo l'inserimento. Il team di Microsoft Purview consiglia di attendere un'ora prima di analizzare i nuovi dati del data lake dopo aver attivato la funzionalità.
Importante
L'abilitazione di set di risorse avanzati influirà sulla frequenza di aggiornamento delle informazioni dettagliate sugli asset e sulla classificazione. Quando sono attivati set di risorse avanzati, le informazioni dettagliate sugli asset e sulla classificazione verranno aggiornate solo due volte al giorno.
Inoltre, quando si abilitano i set di risorse avanzati, potrebbero essere necessari fino a 12 ore per visualizzare gli aggiornamenti dello schema.
Modelli predefiniti del set di risorse
Microsoft Purview supporta i modelli di set di risorse seguenti. Questi modelli possono essere visualizzati come nome in una directory o come parte di un nome file.
Modelli basati su Regex
Nome modello | Nome visualizzato | Descrizione |
---|---|---|
Guid | {GUID} | Identificatore univoco globale definito in RFC 4122 |
Numero | {N} | Una o più cifre |
Formati data/ora | {Year}{Month}{Giorno}{N} | Sono supportati vari formati di data/ora, ma tutti sono rappresentati con {Year}[delimitatore]{Month}[delimitatore]{Day} o serie di {N}s. |
4ByteHex | {HEX} | Un numero HEX a 4 cifre. |
Localizzazione | {LOC} | Un tag di lingua come definito in BCP 47, sono supportati sia i nomi - che _ (ad esempio, en_ca ed en-ca) |
Modelli complessi
Nome modello | Nome visualizzato | Descrizione |
---|---|---|
SparkPath | {SparkPartitions} | Identificatore del file di partizione Spark |
Date(aaaa/mm/gg)InPath | {Year}/{Month}/{Day} | Modello anno/mese/giorno che si estende su più cartelle |
Modalità di visualizzazione dei set di risorse nel Microsoft Purview Data Catalog
Quando Microsoft Purview corrisponde a un gruppo di asset in un set di risorse, tenta di estrarre le informazioni più utili da usare come nome visualizzato nel catalogo. Alcuni esempi della convenzione di denominazione predefinita applicata:
Esempio 1
Nome completo: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Nome visualizzato: "nome dell'output spark"
Esempio 2
Nome completo: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Nome visualizzato: "my partitioned data"
Esempio 3
Nome completo: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Nome visualizzato: "data"
Personalizzazione del raggruppamento di set di risorse tramite regole del modello
Durante l'analisi di un account di archiviazione, Microsoft Purview usa un set di modelli definiti per determinare se un gruppo di asset è un set di risorse. In alcuni casi, il raggruppamento del set di risorse di Microsoft Purview potrebbe non riflettere accuratamente il patrimonio dati. Questi problemi possono includere:
- Contrassegnare erroneamente un asset come set di risorse
- Inserimento di un asset nel set di risorse errato
- Contrassegnare erroneamente un asset come non essere un set di risorse
Per personalizzare o ignorare il modo in cui Microsoft Purview rileva quali asset sono raggruppati come set di risorse e come vengono visualizzati all'interno del catalogo, è possibile definire regole di modello nel Centro gestione. Per istruzioni dettagliate e sintassi, vedere Regole del modello di set di risorse.
Limitazioni note con i set di risorse
- Per impostazione predefinita, gli asset del set di risorse verranno eliminati da un'analisi solo se sono abilitati i set di risorse avanzati . Se questa funzionalità è disattivata, gli asset del set di risorse possono essere eliminati solo manualmente o tramite API.
Passaggi successivi
Per iniziare a usare Microsoft Purview, vedere Avvio rapido: Creare un account Microsoft Purview.