Eseguire trasformazioni di dati di streaming avanzate con Apache Spark e Kafka in Azure HDInsight
In questo modulo si apprende come creare applicazioni e pipeline di analisi dei dati di streaming in tempo reale nel cloud, usando Azure HDInsight insieme ad Apache Kafka e Apache Spark.
Obiettivi di apprendimento
Al termine del modulo, si sarà appreso quanto segue:
- Casi di utilizzo di Apache Spark e Kafka con HDInsight.
- Spark Structured Streaming.
- L'architettura di una soluzione Kafka e Spark.
- Esecuzione del provisioning di HDInsight, creazione di un producer Kafka e trasmissione dei dati Kafka a un notebook di Jupyter.
- La modalità di replica dei dati in un cluster secondario.
Prerequisiti
Devono essere soddisfatti i prerequisiti seguenti:
- Accesso al portale di Azure.
- Conoscenza delle opzioni di archiviazione di Azure.
- Conoscenza delle opzioni di calcolo di Azure.
- Creazione e configurazione di un cluster HDInsight nel portale di Azure.