Standard dei metadati
La gestione dei metadati svolge un ruolo fondamentale nell'architettura dei dati. I metadati sono dati relativi ad altri dati. Descrive i dati, fornendo un riferimento che consente di trovare, proteggere e controllare i dati. I metadati associano anche i dati. Può essere usato per convalidare l'integrità e la qualità dei dati, indirizzare o replicare i dati in una nuova posizione, trasformare i dati e comprendere i significati dei dati. I metadati sono essenziali anche per la democratizzazione dei dati tramite portali self-service.
C'è una tendenza in crescita nel settore per avvicinare i dati analitici agli analisti dei dati e agli scienziati che usano portali che usano più metadati. Questa tendenza è nota come osservabilità dei dati. L'osservabilità dei dati usa concetti come metadata lake, grafici delle conoscenze o grafici di metadati per descrivere le piattaforme in cui sono centralizzati i metadati. È un buon modo per creare una visualizzazione unificata del modo in cui i dati vengono usati e originati nell'organizzazione quando si usa una mesh di dati distribuita.
Una buona strategia di gestione dei metadati si sviluppa in modo organico. Inizia da una base semplice identificando prima le aree più importanti. Una buona strategia di gestione dei metadati è supportata anche con i servizi e i processi chiari. Per iniziare, è consigliabile tenere presenti le diverse categorie di metadati:
- I metadati aziendali descrivono tutti gli aspetti usati per la governance, la ricerca e la comprensione dei dati. Alcuni esempi noti includono termini e definizioni aziendali nonché informazioni sulla proprietà dei dati, l'utilizzo e l'origine.
- I metadati tecnici descrivono gli aspetti strutturali dei dati in fase di progettazione. Alcuni esempi noti includono informazioni sullo schema, informazioni sul formato dei dati e il protocollo e chiavi di crittografia e decrittografia.
- I metadati operativi descrivono gli aspetti dell'elaborazione dei dati in fase di esecuzione. Alcuni esempi noti includono informazioni sui processi, tempo di esecuzione, informazioni sugli errori del processo e ID processo.
- I metadati sociali descrivono la prospettiva utente dei dati dei relativi consumer. Alcuni esempi noti includono informazioni di rilevamento uso e utenti, dati dei risultati di ricerca, filtri e clic, tempo di visualizzazione, riscontri del profilo e commenti.
Nell'architettura dei dati decentralizzata, la gestione dei metadati è un aspetto organizzativo che richiede un equilibrio tra i metadati gestiti centralmente e i metadati gestiti federati. È importante comprendere i team e le funzioni per l'analisi su scala cloud in Azure durante la pianificazione della gestione dei metadati. L'uso di una pratica di gestione dei dati collaborativa può migliorare la comunicazione, l'integrazione e l'automazione del flusso di dati tra i team. È possibile affrontare alcune delle complessità di gestione dei metadati con il giusto equilibrio tra la governance centrale e la proprietà del dominio.
Mentre stai decidendo quali metadati gestire centralmente o federare ai tuoi domini di dati e iniziando la tua implementazione, chiediti:
- Quali metadati aziendali sono critici?
- Quali metadati tecnici sono necessari per l'interoperabilità?
- Quali processi e flussi acquisiscono i dati?
- Dove vengono creati e gestiti i modelli o gli schemi?
- Quali informazioni devono essere fornite dai team in modo centralizzato per consentire al reparto di governance dei dati di svolgere correttamente il proprio lavoro?
Usando le risposte a queste domande, eseguire il mapping del ciclo di vita del contenuto per ognuno dei flussi di metadati e determinare tutte le dipendenze. Si dispone di un modello di metadati in grado di connettere domini aziendali, processi, tecnologia e dati.
Dopo aver appreso i metadati necessari, è necessario scegliere una posizione in cui archiviarla ed elaborarla. Per questa operazione è possibile usare Microsoft Purview.
Usare Microsoft Purview per gestire il patrimonio dati su larga scala
Microsoft Purview è una soluzione unificata per la governance dei dati che semplifica la gestione e la regolamentazione dei dati locali, multi-cloud e SaaS (software come un servizio). Gestisce i metadati su larga scala perché è un servizio completamente automatizzato che esegue in modo intelligente l'individuazione dei dati, l'analisi dei dati, la qualità dei dati e la gestione degli accessi. Fornisce anche una mappa olistica con molte informazioni dettagliate sull'architettura della mesh di dati.
Microsoft Purview è un set completo di soluzioni che consentono all'organizzazione di gestire, proteggere e gestire i dati ovunque si trovino. Le soluzioni Microsoft Purview offrono copertura integrata e consentono di risolvere la frammentazione dei dati tra le organizzazioni, la mancanza di visibilità che ostacola la protezione e la governance dei dati e la sfocatura dei ruoli di gestione IT tradizionali.
Microsoft Purview combina servizi e soluzioni di conformità e governance dei dati in una piattaforma unificata per aiutare l'organizzazione:
- Ottenere visibilità sui dati nell'organizzazione
- Proteggere e gestire i dati sensibili nel suo ciclo di vita ovunque si trovino
- Regolamentare i dati in modi nuovi e completi
- Gestire i requisiti normativi e i rischi associati ai dati critici
Quando si implementa Microsoft Purview, evitare di introdurre troppe modifiche e complessità rapidamente. I metadati tecnici sono la base di Microsoft Purview. È necessario raccogliere e organizzare i metadati prima di avere un senso.
Dopo aver ottenuto i metadati, iniziare con le nozioni di base:
- Termini aziendali
- Elenchi di origini dati autorevoli
- Elenchi di database
- Domini di governance
- Informazioni sullo schema
- Proprietà dei dati
- Gestione dei dati
- Sicurezza
- Qualità dei dati
Ridimensionare coinvolgendo gradualmente un maggior numero di proprietari di dominio e amministratori dei dati e aggiungendo altre classificazioni ed etichette di riservatezza. Queste aggiunte migliorano l'esperienza di ricerca e consentono una migliore gestione degli accessi ai dati.
Microsoft Purview prevede i cosiddetti domini di governance, che stabiliscono i limiti per la governance unificata, la proprietà e l'individuazione dei prodotti di dati e dei concetti aziendali nell'ambito dell'architettura orientata al dominio. Per ulteriori informazioni, vedere Domini di governance in Microsoft Purview.
Usare Azure Cosmos DB per creare un Knowledge Graph
Una soluzione di informazioni dettagliate sui dati deve descrivere come vengono usati i dati e le relazioni tra entità, ad esempio i dati di origine e i prodotti dati, e tra prodotti dati di un dominio e prodotti dipendenti da un altro dominio. È possibile usare un database a grafo o un'interfaccia utente personalizzata per modellare queste relazioni.
Per creare una visualizzazione unificata dei dati dell'organizzazione con un'esperienza utente personalizzata, è consigliabile usare Azure Cosmos DB. Azure Cosmos DB è un servizio di database multi-modello e distribuito a livello globale con endpoint NoSQL. Fornisce un servizio di database a grafo tramite Azure Cosmos DB per Apache Gremlin, che può archiviare grafici di grandi dimensioni con miliardi di vertici e archi.
Il risultato finale dell'architettura di Azure Cosmos DB è un grafico a livello di organizzazione che offre una visualizzazione unificata di tutti i dati nell'organizzazione con contesto end-to-end. Il data lake di metadati non riguarda solo l'archiviazione delle informazioni. Organizza anche attivamente i metadati come grafico connettendolo ad altri servizi e strumenti. Questo grafico organizzato consente di correlare tra più aree di interesse, tra cui:
- Domini
- Qualità dei dati
- Consumo dati
- Funzionalità aziendali
- Funzioni delle applicazioni
- Informazioni sull'architettura tecnica
- Eventi operativi
- Metadati dell'organizzazione
- Metadati di proprietà dell'applicazione
- Informazioni sulla posizione
- Informazioni sulla gestione del ciclo di vita dell'applicazione