Che cos'è una mesh di dati?
La mesh di dati è un modello architetturale per l'implementazione di piattaforme dati aziendali in organizzazioni di grandi dimensioni e complesse. La mesh di dati consente di ridimensionare l'adozione dell'analisi oltre a una singola piattaforma e a un singolo team di implementazione.
Background
La domanda di analisi non è uno sviluppo recente. Le organizzazioni hanno bisogno costantemente di valutare le prestazioni aziendali e di usare i computer a questo scopo fin dalla loro nascita. Intorno agli anni '80, le organizzazioni hanno iniziato a creare soluzioni di data warehousing usando database specifici per il supporto decisionale. Queste soluzioni di data warehousing hanno servito bene le organizzazioni per molto tempo.
Tuttavia, man mano che le aziende cambiano e generano dati più diversificati, le soluzioni di data warehousing che usano database relazionali potrebbero non essere sempre la soluzione migliore. Negli anni '000, i Big Data sono diventati un termine comune. Le aziende hanno adottato nuove soluzioni che consentono l'analisi di grandi volumi di dati diversi che potrebbero essere generati con grande velocità. Queste soluzioni includono tecnologia, ad esempio data lake, e soluzioni di scalabilità orizzontale che analizzano grandi quantità di dati.
Negli ultimi anni, molte organizzazioni usano correttamente modelli di architettura e analitici moderni che combinano tecnologie di data warehousing e tecnologie big data più recenti.
Tuttavia, alcune organizzazioni riscontrano problemi durante la distribuzione di soluzioni analitiche che usano modelli analitici. Queste soluzioni vengono comunemente implementate come soluzioni monolitiche, in cui un singolo team è il provider di piattaforme e il team sta eseguendo l'integrazione dei dati. Le organizzazioni e le organizzazioni più piccole che hanno un livello elevato di centralizzazione dal punto di vista della configurazione del team possono usare un singolo team. Tuttavia, un'organizzazione più grande che usa solo un singolo team spesso crea un collo di bottiglia. Questo collo di bottiglia causa un backlog enorme, che comporta parti di un'organizzazione in attesa di servizi di integrazione dei dati e soluzioni analitiche.
Questo modello diventa più comune quando le organizzazioni adottano soluzioni moderne di data science. Molte soluzioni moderne di data science richiedono più dati rispetto alle tradizionali soluzioni di business intelligence in passato.
Il passaggio recente all'uso di microservizi come modello di sviluppo di applicazioni è un altro driver di backlog lunghi per l'integrazione dei dati, perché aumenta il numero di origini dati.
Un singolo team che gestisce tutti gli inserimenti dati in una singola piattaforma in un'organizzazione di grandi dimensioni può anche essere problematico. Un team raramente ha esperti per ogni origine dati. La maggior parte delle organizzazioni è decentralizzata e distribuita dal punto di vista aziendale. Diverse business unit e reparti gestiscono parti diverse dell'operazione aziendale, quindi gli esperti di dati vengono in genere distribuiti in vari settori.
Per risolvere questi problemi è stato introdotto un modello denominato mesh di dati. L'obiettivo di Data Mesh è consentire ai team distribuiti di lavorare con e condividere le informazioni in modo decentralizzato e agile.
La mesh di dati è un modello tecnico che richiede anche modifiche organizzative. I vantaggi di un approccio basato sulla mesh dei dati vengono raggiunti implementando team multidisciplinari che pubblicano e utilizzano prodotti dati.
I concetti seguenti sono fondamentali per comprendere l'architettura della mesh di dati:
- Domini dati
- Prodotti dati
- Piattaforme self-service
- Governance federata
Domini dati
I domini dati sono la base della mesh di dati. Il concetto di domini dati deriva dallo sviluppo basato su dominio (DDD), un paradigma spesso usato nello sviluppo software per modellare soluzioni software complesse. Nella mesh di dati, un dominio dati è un modo per definire i limiti relativi ai dati aziendali. I domini possono variare a seconda dell'organizzazione e, in alcuni casi, è possibile definire domini intorno all'organizzazione. In altri casi, è possibile scegliere di modellare i domini dati in base ai processi aziendali o ai sistemi di origine.
Esistono tre aspetti per i domini dati:
I limiti scelti si eseguono fino alla proprietà a lungo termine. Esistono per un lungo periodo di tempo e hanno identificato i proprietari.
I domini devono corrispondere alla realtà, non solo ai concetti teorici.
I domini devono avere l'integrità atomica. Se le aree non hanno alcuna relazione tra loro, non combinarle in un dominio insieme.
Per altre informazioni sui domini dati e su come definirli, vedere Domini dati.
Prodotti dati
I prodotti dati sono un altro componente importante della mesh di dati. I prodotti dati hanno lo scopo di portare il prodotto a pensare al mondo dei dati. Affinché il prodotto dati possa avere successo, deve fornire un valore aziendale a lungo termine agli utenti desiderati. Nella mesh dei dati, un prodotto dati include dati, asset di codice, metadati e criteri correlati. I prodotti dati possono essere distribuiti come API, report, tabelle o set di dati in un data lake.
Un prodotto di dati di successo deve essere:
- Utilizzabile: il prodotto deve avere utenti esterni al dominio dati immediato.
- Valore prezioso: il prodotto deve mantenere valore nel tempo. Se non ha un valore a lungo termine, non può avere esito positivo.
- Fattibile: il prodotto deve essere fattibile. Se in realtà non è possibile crearla, il prodotto non può essere un successo. Il prodotto deve essere fattibile sia dal punto di vista della disponibilità dei dati che da un punto di vista tecnico.
Gli asset di codice di un prodotto dati includono il codice che lo genera e il codice che lo fornisce. Gli asset di codice includono anche pipeline usate per creare il prodotto e il report finale del prodotto.
Per altre informazioni sui prodotti dati, vedere Prodotti dati di analisi su scala cloud in Azure.
Per indicazioni specifiche sull'uso della mesh di dati, vedere Che cos'è un prodotto dati?.
Piattaforme self-service
Un core di mesh di dati è costituito da una piattaforma che consente ai domini dati di creare i propri prodotti dati autonomamente. I domini dati devono definire i prodotti dati usando gli strumenti e i processi rilevanti per gli utenti senza avere una forte dipendenza da una piattaforma centrale o da un team centrale della piattaforma. In una mesh di dati si hanno team autonomi che sviluppano e gestiscono prodotti autonomi.
Durante l'uso della decentralizzazione e dell'allineamento con gli utenti aziendali che comprendono i dati, tenere presente i generalisti che lavorano anche sulla piattaforma. Poiché si dispone di generalisti, non è possibile avere strumenti specializzati che richiedono conoscenze specialistiche per operare come base di base della piattaforma basata su mesh.
È possibile implementare correttamente la piattaforma self-service adottando le procedure descritte in Considerazioni sulla progettazione per le piattaforme dati self-service.
Governance federata
Quando si adotta una piattaforma dati distribuita self-service, è necessario porre maggiore attenzione sulla governance. La mancanza di governance comporta la duplicazione di silo e dati nei domini dati. Federate la governance, poiché le persone che conoscono la necessità di governance esistono all'interno dei team allineati al dominio e tra i proprietari dei dati.
Per creare la governance federata, implementare criteri automatizzati in base alle esigenze di piattaforma e dati. Usare un livello elevato di automazione per il test e il monitoraggio. Adottare una strategia di implementazione code-first per gestire standard, criteri, prodotti dati e distribuzione della piattaforma come codice.
Per altre informazioni sull'implementazione di aspetti di governance federati, vedere Panoramica della governance dei dati.
Riepilogo
La mesh di dati può essere un modo efficace per implementare piattaforme dati aziendali, ma non è la soluzione migliore per tutte le organizzazioni. La mesh dei dati richiede team autonomi che possono lavorare in modo indipendente. La mesh di dati funziona meglio in organizzazioni di grandi dimensioni e complesse che dispongono di business unit indipendenti e devono ridimensionare l'adozione dell'analisi oltre a una singola piattaforma e team di implementazione.
Quando si usa la mesh di dati, prestare particolare attenzione quando si implementa la governance in modo da non creare silo. Mantenere sempre il pensiero del prodotto per i dati al centro dell'implementazione per garantire il successo.