Tecnologie di Azure per il processo di apprendimento

Completato

In questa unità verrà spiegato come applicare i risultati della fase di misurazione nel ciclo di vita dell'innovazione. Si apprenderà anche l'importanza della democratizzazione dei dati.

Democratizzazione dei dati

Come si è appreso nelle unità precedenti, è possibile raccogliere dati dai clienti usando più origini. Queste origini includono i microsondaggi, i dati di utilizzo derivati da Azure Application Insights e i flag di funzionalità che i clienti possono decidere personalmente di abilitare o disabilitare. Più dati si hanno, le decisioni migliori sono, ma è necessario un modo per gestire questo flusso sempre crescente di dati.

Nel 2014 Satya Nadella ha parlato dell'importanza della cultura dei dati in un'organizzazione. Secondo Nadella, le decisioni non dovrebbero essere prese sulla base di sensazioni o di opinioni soggettive, ma usando i dati per convalidarle. Ha inoltre sostenuto il fatto che i dati devono essere a disposizione di chiunque ne abbia bisogno e devono essere facilmente convertiti in informazioni dettagliate di utilità pratica per facilitare le decisioni basate su di essi.

Un'organizzazione può prendere decisioni pervasive sui dati solo se tali decisioni si basano su una piattaforma dati solida e accessibile. Questo lavoro interessa quattro aree:

  • Raccolta dei dati: l'elemento basilare di un processo decisionale basato sui dati è sempre la disponibilità di dati. La raccolta dei dati può avvenire in diversi modi: tramite migrazione da repository di dati esistenti, generazione di dati da nuove origini come Azure Application Insights o inserimento di dati da altre origini.
  • Condivisione dei dati: i dati raccolti devono essere a disposizione di chiunque ne abbia bisogno, non solo degli esperti. Tutti gli utenti in un'organizzazione devono poter usare i dati per prendere decisioni.
  • Centralizzazione dei dati: le piattaforme dati centralizzate aiutano a semplificare la condivisione e la governance dei dati.
  • Governance dei dati: la condivisione dei dati non significa che tutti i dati debbano essere disponibili a tutti. È necessario assicurarsi che tutti i dati sensibili siano protetti, monitorati e regolamentati prima di condividerli.

Piattaforma dati di Azure

La piattaforma di Azure copre l'intero ciclo di vita dei dati, che è fondamentale per i processi decisionali basati sui dati e per la democratizzazione dei dati. Dai database leggeri e on demand ai data warehouse di grandi dimensioni o ai sistemi NoSQL flessibili, la piattaforma dati di Azure consente di coprire le quattro aree di attività che riguardano i dati.

Raccolta dati

L'ecosistema di dati di Azure include servizi e strumenti per la migrazione, l'inserimento, l'archiviazione e l'analisi dei dati. L'elenco seguente mostra solo alcuni dei meccanismi che è possibile usare per elaborare i dati e renderli disponibili per la condivisione in un secondo momento, al fine di facilitare il processo decisionale basato sui dati:

  • Analisi dei dati: Azure Synapse Analytics è un servizio di analisi aziendale che riduce il tempo necessario per estrarre informazioni dettagliate da data warehouse e sistemi Big Data. Azure Synapse Analytics riunisce il meglio di:
    • Tecnologie SQL usate nel data warehousing aziendale.
    • Tecnologie Spark usate per i Big Data.
    • Pipeline per l'integrazione dei dati ed ETL (estrazione, trasformazione, caricamento) ed ELT (estrazione, caricamento, trasformazione).
    • Integrazione approfondita con altri servizi Microsoft, ad esempio Power BI, Azure Cosmos DB e Azure Machine Learning.
  • Migrazione dei dati: i dati potrebbero essere già archiviati in origini esistenti, ma è necessario eseguirne la migrazione in una piattaforma moderna prima di poterli convertire in informazioni dettagliate fruibili. Servizio Migrazione del database di Azure contiene strumenti che agevolano la migrazione dei dati da sistemi come SQL Server, PostgreSQL, Oracle e MongoDB.
  • Elaborazione dei dati: Azure include servizi per l'analisi e la trasformazione dei flussi di dati con Analisi di flusso di Azure e per l'esecuzione di processi ETL (estrazione, trasformazione, caricamento) su larga scala con Azure Data Factory.

Condivisione dei dati

Microsoft Power BI è un set di strumenti che consolidano i dati provenienti da origini diverse in visualizzazioni interattive integrate. Gli utenti possono analizzare i dati semplicemente usando controlli intuitivi. La potenza delle informazioni dettagliate è disponibile a tutti gli utenti di un'organizzazione, non solo ai professionisti dei dati.

I proprietari dell'area possono creare report e dashboard che contengono le informazioni rilevanti su aspetti specifici dell'applicazione. Dopo che la nuova funzionalità è stata introdotta per convalidare un'ipotesi, i dati sono immediatamente disponibili per convalidare o scartare l'ipotesi in base all'utilizzo reale del cliente.

Microsoft Power BI può essere utile per la condivisione dei dati da più punti di vista. Di seguito sono riportati alcuni esempi.

  • Condividere i dati con colleghi e partner: i dashboard di Power BI semplificano l'utilizzo dei dati. Le visualizzazioni consentono agli utenti che non sono esperti di dati di eseguire il drill-down dei dati senza dover avere familiarità con la struttura sottostante.
  • Generare rapidamente dati analitici: Power BI può generare automaticamente visualizzazioni di set di dati grazie alla funzionalità Informazioni rapide. È possibile creare rapidamente i dashboard e trovare correlazioni tra dati che potrebbero non essere ovvie all'inizio.
  • Incorpora report in un sito Web o in un portale: Con Power BI non solo è possibile accedere alle visualizzazioni nel portale di Power BI nativo, ma è anche possibile incorporare report e dashboard in altre applicazioni Web. In questo modo, gli utenti non hanno bisogno di spostarsi dai consueti siti Web aziendali per trovare i dati necessari per il processo decisionale.

Centralizzazione dei dati

Il problema principale della centralizzazione dei dati è la scalabilità a livelli diversi. A rischio di semplicità eccessiva, è possibile ridurlo alle 3 V dei Big Data:

  • Volume: Azure Data Lake Storage Gen2 è una piattaforma di Azure scalabile ed economica per l'archiviazione dei dati. Sulla base dell'elevata scalabilità fornita da Archiviazione di Azure, Azure Data Lake Storage è stato progettato per gestire più petabyte di informazioni, mantenendo al contempo centinaia di gigabit di velocità effettiva.
  • Varietà: Questo termine spesso si riferisce al fatto che i dati non sono sempre strutturati. I dati possono essere anche semistrutturati e persino non strutturati. Azure Synapse è ottimale in quest'area perché riunisce le migliori tecnologie SQL usate nel data warehousing aziendale e Spark, che trova spesso impiego con i Big Data.
  • Velocità: un problema che ricorre spesso nelle architetture dati tradizionali è l'interdipendenza tra la capacità di archiviazione, la velocità di analisi e la velocità di inserimento. Nelle soluzioni dati di Azure un'organizzazione può ridimensionare dimensioni diverse della piattaforma in modo indipendente, disaccoppiandole. I dati possono essere inseriti, elaborati e condivisi attraverso pipeline di dati che usano i servizi dati di Azure necessari, come mostrato nell'architettura di business intelligence aziendale.

Governance dei dati

Nel mondo odierno i dati rappresentano sia una risorsa critica sia una responsabilità significativa. I dati archiviati spesso includono informazioni riservate che possono causare danni finanziari o personali se vengono persi o condivisi in modo inappropriato. L'archiviazione e l'elaborazione dei dati implicano che un'organizzazione accetti tale responsabilità. Le norme giuridiche prevedono sanzioni per le organizzazioni che fanno un uso improprio dei dati personali o riservati.

Pertanto, la governance dei dati è un aspetto critico per qualsiasi organizzazione che si prefigga un obiettivo di democratizzazione dei dati. Il primo passo verso la governance dei dati consiste nel classificare i dati che devono essere trattati in modi specifici. Ad esempio, Microsoft usa queste categorie di dati internamente per la classificazione dei dati:

  • Non aziendali: dati della sfera personale dell'utente che non appartengono a Microsoft.
  • Pubblici: dati aziendali liberamente disponibili e approvati per l'utilizzo pubblico.
  • Generali: dati aziendali non destinati al pubblico.
  • Riservati: dati aziendali che possono causare danni a Microsoft se eccessivamente condivisi.
  • Riservatezza elevata: dati aziendali che possono causare danni ingenti a Microsoft se eccessivamente condivisi.

Il passaggio successivo dopo la classificazione dei dati consiste nel garantire che ogni categoria di dati sia protetta da accessi non autorizzati. Azure supporta le tecnologie seguenti che impongono la riservatezza:

  • Crittografia dei dati inattivi: tutti i dati di Azure vengono crittografati quando vengono archiviati nei data center Microsoft. Alcuni servizi di Azure offrono funzionalità di crittografia specifiche, come Transparent Data Encryption in Azure Synapse e database SQL di Azure.
  • Crittografia dei dati in transito: tutti i servizi dati di Azure crittografano i dati con TLS/SSL prima di inviarli attraverso la rete. Alcuni servizi, ad esempio Archiviazione di Azure, possono consentire il traffico non crittografato come alternativa. Le organizzazioni dovrebbero disabilitare le comunicazioni non crittografate per tutti i tipi di dati sensibili.
  • Controllo di accesso ai dati: Azure offre sofisticati meccanismi di autenticazione e autorizzazione per l'accesso alla piattaforma Azure e per l'accesso ai dati. Controllo degli accessi in base al ruolo, Accesso condizionale e Privileged Identity Management sono tre esempi di servizi essenziali che contribuiscono ad assicurare che solo le persone autorizzate abbiano accesso ai dati sensibili.
  • Controllo dei dati: molti standard di conformità alle normative richiedono una dimostrazione dei meccanismi di protezione dei dati, documentando chi ha eseguito determinate operazioni e chi ha eseguito l'accesso a determinati dati. Come descritto in Controllo per database SQL di Azure e Azure Synapse Analytics, il controllo dei dati in Azure contempla tre aspetti del controllo:
    • Mantenere un audit trail di specifici eventi, in cui definire le categorie di azioni sui dati da controllare.
    • Creare report sulle attività del database, anche con report e dashboard preconfigurati per iniziare rapidamente.
    • Analizzare i report per individuare eventi sospetti, attività insolite e tendenze

Mentalità orientata alla crescita

La fase di apprendimento talvolta non fornisce buone notizie. Le ipotesi che si pensavano corrette potrebbero risultare errate. Essere aperti a idee alternative è fondamentale perché il processo di innovazione avanzi in modo fluido. Può darsi che l'ipotesi sia completamente errata o magari che il problema risieda nel modo in cui è stato sviluppato il prototipo.

In ogni caso, le conclusioni devono sempre essere supportate con i dati. Il team deve passare alla formulazione dell'ipotesi successiva, possibilmente una revisione o un'iterazione di quella iniziale.

È possibile che i dati a disposizione non consentano di determinare in modo inequivocabile se l'ipotesi fosse giusta o errata. In questo caso, è necessario migliorare il set di dati a supporto del processo decisionale. È possibile introdurre nuovi punti di telemetria nell'applicazione o scoprire nuovi modi per ottenere informazioni sull'esperienza del cliente.

Una mentalità di crescita è fondamentale in questa fase. Si pensi alle ipotesi dimostratesi errate o parzialmente errate come opportunità di apprendimento. Le organizzazioni non devono perdere tempo su un'innovazione che non genera i risultati aziendali previsti.

Risorse utili

Molti dei concetti illustrati in questa unità sono descritti nella documentazione di Cloud Adoption Framework sulla democratizzazione dei dati.