Criteri decisionali per la selezione dell'opzione di configurazione di HDInsight corretta

Completato

Sono disponibili diverse configurazioni del servizio HDInsight che possono essere usate per scenari analitici diversi. In realtà, HDInsight contiene così tante tecnologie di analisi software open source che potrebbe essere considerata l'unica risorsa completa per soddisfare le esigenze analitiche avanzate dell'utente. Tutti i vari tipi di cluster disponibili possono soddisfare le esigenze degli scenari aziendali descritti di seguito. Con ogni tipo di cluster si ha il controllo completo sulla gestione di ognuno di questi scenari all'interno di HDInsight. 

Molte aziende hanno requisiti simili per quanto riguarda gli scenari di elaborazione e di analisi dei dati per ottenere valore aziendale. Questi requisiti includono:

Elaborazione batch

HDInsight può essere usato per operazioni di estrazione, trasformazione e caricamento (ETL) o operazioni di estrazione, caricamento e trasformazione (ELT) per dati sia strutturati che non strutturati usando Hadoop o Spark e i framework di elaborazione dati, tra cui Hive e Sqoop.  

Data warehousing

Tradizionalmente eseguito da database relazionali locali, ad esempio SQL Server e, più di recente, con Azure SQL Data Warehouse su dati strutturati su scala di petabyte. HDInsight consente di eseguire query interattive su scala di petabyte su dati strutturati o non strutturati in molti formati. Questa funzionalità può dare ottimi risultati se si gestiscono le operazioni sui dati e i requisiti di creazione di report tramite HDInsight Hadoop con Hive. 

Dati in streaming

I dati in streaming possono essere inseriti a partire da un'ampia gamma di origini usando HDInsight tramite un hub eventi o hub IoT usando lo streaming Spark.  

Gestione

Alcune organizzazioni dispongono già di infrastrutture di Big Data locali. È possibile estendere la funzionalità al cloud usando HDInsight.

L'elemento chiave per la scelta dell'opzione di configurazione corretta del cluster HDInsight si basa sul carico di lavoro che il cluster HDInsight sarà in grado di gestire. Se l'organizzazione usa più carichi di lavoro, non è insolito passare tra diverse configurazioni di HDInsight in base al carico di lavoro che deve essere elaborato.

Tipo di carico di lavoro Tipo di cluster
Spostamento in batch dei dati Apache Hadoop
Data Science - Batch e Streaming Apache Spark
Carichi di lavoro transazionali HBase
Analisi ad hoc/Data warehousing Apache Interactive Query
Analisi streaming Apache Kafka

Importante

I cluster HDInsight sono disponibili i vari tipi, ognuno per un carico di lavoro o una tecnologia specifici. Non è supportato alcun metodo per creare un cluster che combini più tipi, ad esempio Hadoop e HBase, in un cluster. Se la soluzione richiede tecnologie che coprono più tipi di cluster HDInsight, una rete virtuale di Azure è in grado di connettere i diversi tipi di cluster necessari.