Che cos'è Azure HDInsight?

Completato

Di seguito vengono presentati le funzionalità e gli usi di HDInsight. Questa panoramica consentirà di valutare se HDInsight è in grado di soddisfare i requisiti specifici dell'organizzazione.

What is big data? (Che cosa sono i Big Data?)

Il termine Big Data descrive gli enormi volumi di dati strutturati e non strutturati raccolti dall'organizzazione. Questi dati possono essere estremamente utili per le organizzazioni. In particolare, se un'organizzazione può analizzare i dati per ottenere informazioni dettagliate, ha più strumenti per migliorare i processi decisionali. Il risultato è che queste decisioni possono aiutare un'organizzazione a ottenere maggiore successo. Ad esempio, l'analisi di Big Data potrebbe consentire a un'organizzazione commerciale di conoscere meglio le abitudini dei clienti, con la possibilità di aumentare le vendite.

Definizione di Azure HDInsight

Azure HDInsight è un servizio di analisi open source basato sul cloud e completamente gestito destinato alle aziende. HDInsight consente di controllare e gestire i Big Data. HDInsight:

  • È una distribuzione cloud dei componenti di Hadoop.

  • Semplifica, velocizza e rende più conveniente l'elaborazione di enormi volumi di dati.

  • Supporta l'uso di framework open source, come:

    • Hadoop
    • Apache Spark
    • Apache Hive
    • Apache Kafka

    Nota

    Questi framework consentono di abilitare una vasta gamma di scenari, ad esempio l'estrazione, la trasformazione e il caricamento, il data warehousing, Machine Learning e Internet delle cose.

HDInsight offre diversi vantaggi per le organizzazioni che lavorano con Big Data, in particolare:

  • Open source: consente di creare cluster ottimizzati per vari framework open source.

  • Affidabilità: fornisce un contratto di servizio end-to-end per tutti i carichi di lavoro di produzione.

  • Scalabilità: consente di ridimensionare i carichi di lavoro per rispondere alle variazioni nella domanda.

    Suggerimento

    Creando cluster su richiesta, è possibile ridurre i costi. Si paga solo per le risorse usate.

  • Sicurezza: consente di proteggere gli asset di dati aziendali tramite l'integrazione con:

    • Rete virtuale di Azure
    • Tecnologie di crittografia di Azure
    • Microsoft Entra ID
  • Conformità: soddisfa i più diffusi standard di conformità del settore e governativi.

  • Monitoraggio: si integra con i log di Monitoraggio di Azure per fornire una singola interfaccia. Consente di monitorare tutti i cluster usando una singola interfaccia.

Possibili usi di HDInsight per lavorare con i Big Data

È possibile usare HDInsight per molti scenari che usano l'elaborazione di Big Data. I dati possono essere:

  • Dati cronologici: questi dati sono già stati raccolti e archiviati.
  • Dati in tempo reale: questi dati vengono trasmessi direttamente dall'origine.

Le categorie seguenti riepilogano gli scenari di elaborazione per questi dati:

  • Elaborazione batch
  • Data warehousing
  • IoT
  • Data science
  • Ibrido

Queste categorie verranno esaminate in maggiore dettaglio di seguito.

Elaborazione batch

Le organizzazioni usano processi di elaborazione batch per preparare i Big Data per ulteriori analisi. In genere, questo processo prevede tre fasi:

  1. Lettura di file di dati di origine da origini dati eterogenee.
  2. Elaborazione dei dati.
  3. Scrittura dei dati in un archivio scalabile.

Nota

Questo processo è spesso noto come ETL o estrazione, trasformazione e caricamento.

È possibile usare i dati trasformati per attività di data science o data warehousing.

Suggerimento

Un requisito significativo per ETL è la scalabilità orizzontale del calcolo, che consente l'elaborazione di volumi di dati di grandi dimensioni.

Data warehousing

Un data warehouse offre a un'organizzazione una posizione in cui archiviare i Big Data in attesa di analizzarli. Il data warehousing consente di:

  • Archiviare i dati.
  • Preparare i dati per l'analisi.
  • Fornire i dati preparati in un formato strutturato. È quindi possibile eseguire query sui dati usando gli strumenti di analisi.

Il diagramma seguente illustra come Apache Hadoop in HDInsight raccoglie e archivia i dati da diverse origini. Apache Spark e Apache Hive preparano e analizzano i dati. Infine, i dati vengono modellati per l'uso con strumenti di business intelligence (BI). Per la visualizzazione dei dati viene usato Power BI.

Diagramma che mostra come HDInsight consente l'interazione di diversi strumenti per raccogliere, archiviare e preparare i dati per l'analisi e quindi facilita l'analisi dei dati da altri strumenti.

I componenti di questo scenario comprendono:

  • Apache Spark è un framework di elaborazione parallela. Supporta l'elaborazione in memoria per migliorare le prestazioni delle applicazioni di analisi dei Big Data.
  • Apache Hive in HDInsight è un sistema di data warehousing per Apache Hadoop. Hive consente il riepilogo, l'esecuzione di query e l'analisi dei dati. È possibile usare questi componenti per eseguire query nell'ordine di grandezza di petabyte su dati strutturati o non strutturati in qualsiasi formato.

Suggerimento

Le query Hive sono scritte in HiveQL, un linguaggio di query simile a SQL.

Internet delle cose

Come illustrato nel diagramma seguente, HDInsight elabora i flussi di dati ricevuti in tempo reale da dispositivi e sensori diversi. In questo esempio, diversi framework open source si occupano dell'elaborazione dei flussi, tra cui Apache Spark e Apache Kafka.

I servizi gateway di Azure e gli hub IoT indirizzano i dati a questi framework da diverse origini. I framework elaborano quindi i dati e li passano a:

  • Archiviazione a lungo termine.
  • App in tempo reale.
  • Dashboard in tempo reale.

Diagramma dello scenario Internet delle cose, descritto nel testo precedente.

Data science

È possibile usare HDInsight per eseguire attività comuni di data science, ad esempio:

  • Inserimento dati.
  • Progettazione delle funzioni.
  • Modellazione.
  • Valutazione del modello.

Il diagramma seguente illustra uno scenario di data science in cui:

  1. I dati vengono raccolti da un'origine dati locale usando Azure Data Factory.
  2. I dati inseriti vengono quindi archiviati in un servizio di archiviazione di Azure (Archiviazione BLOB di Azure o Data Lake Store).
  3. Azure Spark in HDInsight elabora e prepara i dati per Azure Machine Learning. I dati vengono inoltre visualizzati con Power BI.

Diagramma che visualizza lo scenario di data science descritto nel testo precedente.

Ibrido

Le organizzazioni con un'infrastruttura Big Data locale possono usare HDInsight per estendersi in Azure. Si ottengono così i vantaggi delle funzionalità di analisi avanzate del cloud di Azure. Il diagramma seguente illustra lo scenario ibrido, in cui:

  • L'infrastruttura Big Data locale è costituita da archivi di metadati e una distribuzione Hadoop o Spark nelle macchine virtuali locali.
  • Un circuito Azure ExpressRoute connette l'ambiente di rete aziendale locale alle reti virtuali di Azure.
  • Uno strumento di migrazione per i dati in tempo reale per Azure replica i dati ricevuti dall'ambiente locale in HDInsight.

Diagramma dello scenario ibrido descritto nel testo precedente.