Introduzione all'analisi su scala cloud
L'analisi su scala cloud si basa sulle zone di destinazione di Azure per semplificare la distribuzione e la governance. Lo scopo principale di una zona di destinazione di Azure è garantire che, quando si distribuisce un'applicazione o un carico di lavoro in Azure, l'infrastruttura necessaria sia già disponibile. Prima di distribuire una zona di destinazione per l'analisi su scala cloud, è necessario esaminare il Cloud Adoption Framework per Azure per distribuire un'architettura dell'area di destinazione di Azure che includa zone di atterraggio della piattaforma.
Per i carichi di lavoro sovrani, Microsoft fornisce Sovereign Landing Zone (SLZ), una variante della landing zone di Azure su scala aziendale. La SLZ è destinata alle organizzazioni che necessitano di controlli sovrani avanzati. L'analisi su scala cloud può essere implementata in questa variante della landing zone di Azure.
L'analisi su scala cloud prevede la distribuzione nelle zone di destinazione dell'applicazione. Queste zone si trovano in genere nel gruppo di gestione della zona di atterraggio. I criteri vengono filtrati in base ai modelli di esempio forniti da Microsoft.
È possibile usare questi modelli di esempio per data lakehouse e distribuzioni di data mesh.
Valutazione dell'analisi su scala cloud
Spesso un'azienda cerca chiarezza o indicazioni prescrittive prima di iniziare a definire i dettagli tecnici per un caso d'uso o un progetto specifico o per l'analisi end-to-end su scala cloud. Poiché un'azienda formula la strategia complessiva dei dati, può essere difficile garantire che tutti i principi strategici e necessari nell'ambito dell'uso corrente vengano presi in considerazione.
Per velocizzare la distribuzione di questa implementazione end-to-end di informazioni dettagliate, tenendo conto di queste sfide, Microsoft ha sviluppato uno scenario prescrittivo per l'analisi su scala cloud. Si allinea ai temi chiave illustrati in Sviluppare un piano per l'analisi su scala cloud.
L'analisi su scala cloud si basa su Cloud Adoption Framework e applica i principi di Azure Well-Architected Framework. Cloud Adoption Framework fornisce indicazioni prescrittive e procedure consigliate per i modelli operativi cloud, le architetture di riferimento e i modelli di piattaforma. Queste linee guida si basano su esperienze reali provenienti da alcuni dei nostri ambienti più impegnativi, sofisticati e complessi.
L'analisi su scala cloud consente di prepararsi a creare e rendere operative le zone di destinazione per ospitare ed eseguire carichi di lavoro di analisi. Le zone di destinazione vengono create sulle basi di sicurezza, governance e conformità avanzate. Le zone di destinazione sono scalabili e modulari, ma supportano l'autonomia e l'innovazione.
Cronologia dell'architettura dei dati
Alla fine degli anni '80, è stata introdotta la generazione 1 del data warehouse. Questo modello combina fonti di dati disparate da tutta l'azienda. Alla fine degli anni '000 è emerso la generazione 2, con l'introduzione di ecosistemi di Big Data come Hadoop e data lake. A metà degli anni 2010 è stata introdotta la piattaforma dati cloud: l'ingestione di dati in streaming, con architetture come Kappa o Lambda. Nei primi anni 2020 sono stati introdotti data lakehouse, mesh di dati, data fabric e modelli operativi incentrati sui dati.
Nonostante questi progressi, molte organizzazioni usano ancora la piattaforma monolitica centralizzata: generazione 1. Questo sistema funziona bene, fino a un certo punto. Tuttavia, i colli di bottiglia possono verificarsi a causa di processi interdipendenti, componenti strettamente associati e team iperspecializzati. I processi di estrazione, trasformazione e caricamento (ETL) possono diventare importanti e rallentare le sequenze temporali di recapito.
I data warehouse e i data lake sono ancora preziosi e svolgono un ruolo importante nell'architettura complessiva. La documentazione seguente illustra alcune delle problematiche che possono verificarsi quando si usano queste procedure tradizionali per il ridimensionamento. Queste sfide sono particolarmente rilevanti in un'organizzazione complessa, in cui origini dati, requisiti, team e output cambiano.
Passaggio all'analisi su scala cloud
L'architettura dei dati analitici e il modello operativo correnti possono includere strutture come data warehouse, data lake e data lakehouse, data fabric o data mesh.
Ogni modello di dati ha i propri meriti e sfide. L'analisi su scala cloud consente di spostare l'approccio attuale alla gestione dei dati in modo che possa evolversi con l'infrastruttura.
È possibile supportare qualsiasi piattaforma dati e scenario per creare un framework di analisi end-to-end su scala cloud che funge da base e consente il ridimensionamento.
Piattaforma dati moderna e risultati desiderati
Uno dei primi passaggi consiste nell'attivare la strategia dei dati per soddisfare le sfide creando in modo iterativo una piattaforma dati moderna scalabile e agile.
Invece di essere sovraccaricati con i ticket di servizio e cercando di soddisfare esigenze aziendali concorrenti, quando si implementa una piattaforma dati moderna, è possibile svolgere un ruolo più consultivo perché è possibile liberare il proprio tempo per concentrarsi sul lavoro più prezioso. Si forniscono linee di business con la piattaforma e i sistemi per soddisfare le esigenze di analisi e dati self-service.
Di seguito sono indicate le aree di focus iniziale consigliate.
- Migliorare la qualità dei dati, facilitare la fiducia e ottenere informazioni dettagliate per prendere decisioni aziendali basate sui dati.
- Implementare dati, gestione e analisi olistici su larga scala nell'organizzazione.
- Stabilire una solida governance dei dati che consenta la flessibilità e la flessibilità self-service per le linee di business.
- Mantenere la sicurezza e la conformità legale in un ambiente completamente integrato.
- Creare rapidamente le basi per le funzionalità di analisi avanzate utilizzando una soluzione pronta all'uso con modelli ben strutturati, ripetibili e modulari.
Gestire il patrimonio di analisi
Una seconda considerazione consiste nel determinare come l'organizzazione implementerà la governance dei dati.
La governance dei dati è il processo per garantire che i dati usati nelle operazioni aziendali, nei report e nell'analisi siano individuabili, accurati, attendibili e che possano essere protetti.
Per molte aziende, l'aspettativa è che i dati e l'IA creeranno un vantaggio competitivo. Di conseguenza, i dirigenti sono desiderosi di sponsorizzare le iniziative di IA nella loro determinazione a diventare basate sui dati. Tuttavia, affinché l'intelligenza artificiale sia efficace, deve usare dati attendibili. In caso contrario, l'accuratezza delle decisioni può essere compromessa, le decisioni potrebbero essere ritardate o le azioni potrebbero non riuscire, che possono influire sul risultato. Le aziende non vogliono che la qualità dei dati sia scarsa. Fino a quando non si esamina l'effetto che la trasformazione digitale ha avuto sui dati, potrebbe sembrare semplice correggere la qualità dei dati.
Le organizzazioni con dati distribuiti in un panorama ibrido multicloud e distribuito dei dati faticano a trovare dove si trovano i dati e a controllarli. I dati non governativi possono avere un notevole effetto sull'azienda. La scarsa qualità dei dati influisce sulle operazioni aziendali perché gli errori dei dati causano errori di processo e ritardi. La scarsa qualità dei dati influisce anche sul processo decisionale aziendale e sulla capacità di rimanere conforme. Garantire la qualità dei dati all'origine è spesso preferibile perché la correzione dei problemi di qualità nel sistema analitico può essere più complessa e costosa rispetto all'applicazione delle regole di qualità dei dati all'inizio della fase di inserimento. Per tenere traccia e gestire l'attività dei dati, la governance dei dati deve includere:
- Individuazione dei dati.
- Qualità dei dati.
- Creazione di politiche.
- Condivisione dei dati.
- Metadati.
Proteggere il patrimonio di analisi
Un altro fattore importante per la governance dei dati è la protezione dei dati. La protezione dei dati consente di garantire la conformità alle normative e di prevenire violazioni dei dati. La privacy dei dati e il numero crescente di violazioni dei dati hanno reso la protezione dei dati una priorità assoluta. Le violazioni dei dati evidenziano il rischio per i dati sensibili, ad esempio i dati personali dei clienti. Le conseguenze della violazione della privacy dei dati o di una violazione della sicurezza dei dati possono includere:
- Gravi danni all'immagine del marchio.
- Perdita di fiducia dei clienti e quota di mercato.
- Una riduzione del prezzo delle azioni, che influisce sul ritorno sull'investimento per gli stakeholder e sugli stipendi dei dirigenti.
- Sanzioni finanziarie significative a causa di errori di controllo o conformità.
- Azione legale.
- Gli effetti secondari della violazione, ad esempio, i clienti potrebbero cadere vittima del furto di identità.
Nella maggior parte dei casi, le società quotate pubblicamente devono dichiarare violazioni. Se si verificano violazioni, è probabile che i clienti incolpano l'azienda piuttosto che l'hacker. I clienti potrebbero boicottare l'azienda per diversi mesi o non tornare mai.
La mancata conformità alle normative sulla privacy dei dati può comportare sanzioni finanziarie significative. La governance dei dati consente di evitare questi rischi.
Modello operativo e vantaggi
L'adozione di una piattaforma moderna per la strategia dei dati non cambia solo la tecnologia usata dall'organizzazione. Cambia anche il funzionamento dell'organizzazione.
L'analisi su scala cloud fornisce indicazioni utili per organizzare e formare i dipendenti, tra cui:
- Definizioni di persona, ruolo e responsabilità.
- Strutture suggerite per team agile, verticale e tra domini.
- Risorse di training, incluse le certificazioni per i dati e l'intelligenza artificiale di Azure tramite Microsoft Learn.
È anche importante coinvolgere gli utenti finali durante il processo di modernizzazione e continuare a sviluppare la piattaforma ed eseguire l'onboarding di nuovi casi d'uso.
Architetture
Le zone di destinazione di Azure rappresentano il percorso di progettazione strategico e lo stato tecnico di destinazione per l'ambiente. Semplificano la distribuzione e la governance in modo che sia possibile migliorare l'agilità e la conformità. Assicurano anche che, quando viene aggiunta una nuova applicazione o un nuovo carico di lavoro all'ambiente, l'infrastruttura appropriata è già presente. La gestione dei dati e le zone di destinazione dei dati di Azure, integrate con soluzioni di governance e analisi SaaS (Software as a Service) Microsoft, sono progettate tenendo presenti questi principi fondamentali e, se combinati con gli altri elementi dell'analisi su scala cloud, possono essere utili per abilitare:
- Servizio Self
- Scalabilità.
- Un avvio rapido.
- Sicurezza.
- Riservatezza.
- Operazioni ottimizzate.
Zona di destinazione per la gestione dei dati
La zona di destinazione per la gestione dei dati offre le basi per la governance e la gestione centralizzata dei dati della piattaforma nell'organizzazione. Facilita inoltre la comunicazione per acquisire dati dall'intero patrimonio digitale, comprese le infrastrutture multicloud e ibride.
La zona di destinazione di gestione dei dati supporta numerose altre funzionalità di gestione e governance dei dati, ad esempio:
- Cataloghi dati.
- Gestione della qualità dei dati.
- Classificazione dei dati.
- Tracciabilità dei dati.
- Repository di modellazione dei dati.
- Cataloghi API.
- Condivisione dei dati e contratti.
Suggerimento
Se si usano soluzioni partner per il catalogo dati, la gestione della qualità dei dati o le funzionalità di derivazione dei dati, devono risiedere nella zona di destinazione di gestione dei dati. In alternativa, è possibile distribuire Microsoft Purview come soluzione SaaS, connettendosi sia alla zona di destinazione di gestione dei dati che alle zone di destinazione dei dati.
Zona di destinazione dei dati
Le zone di destinazione dei dati avvicinano i dati agli utenti e consentono il self-service mantenendo al tempo stesso la gestione e la governance comuni tramite la connessione alla zona di atterraggio di gestione dei dati.
Ospitano servizi standard come rete, monitoraggio ed elaborazione dei dati, oltre a personalizzazioni come prodotti dati e visualizzazioni.
Le zone di destinazione dei dati sono fondamentali per abilitare la scalabilità della piattaforma. A seconda delle dimensioni e delle esigenze dell'organizzazione, è possibile iniziare con una o più zone di destinazione.
Quando si decide tra zone di destinazione singole e multiple, prendere in considerazione le dipendenze regionali e i requisiti di residenza dei dati. Ad esempio, esistono leggi locali o normative che richiedono che i dati rimangano in una posizione specifica?
Indipendentemente dalla decisione iniziale, è possibile aggiungere o rimuovere le zone di destinazione dei dati in base alle esigenze. Se si inizia con una singola zona di destinazione, è consigliabile estendere a più zone di destinazione per evitare future esigenze di migrazione.
Nota
Dove viene distribuito Microsoft Fabric, la zona di destinazione dei dati ospita soluzioni non SaaS come data lake e altri servizi dati di Azure.
Per altre informazioni sulle zone di destinazione, vedere Zone di destinazione di Azure per l'analisi su scala cloud.
Conclusione
Dopo aver letto questo set di documentazione, in particolare le sezioni governance, sicurezza, funzionamento e procedure consigliate, è consigliabile configurare un ambiente di verifica usando i modelli di distribuzione. Questi modelli, insieme alle linee guida sull'architettura, offrono un'esperienza pratica con alcune delle tecnologie SaaS di Azure e Microsoft. Per altre informazioni, vedere l'elenco di controllo Introduttivo.