Eseguire trasformazioni di dati di streaming avanzate con Apache Spark e Kafka in Azure HDInsight

Modulo
11 Unità

Intermedio

Data engineer

Data scientist

Azure HDInsight

In questo modulo si apprende come creare applicazioni e pipeline di analisi dei dati di streaming in tempo reale nel cloud, usando Azure HDInsight insieme ad Apache Kafka e Apache Spark.

Obiettivi di apprendimento

Al termine del modulo, si sarà appreso quanto segue:

Casi di utilizzo di Apache Spark e Kafka con HDInsight.
Spark Structured Streaming.
L'architettura di una soluzione Kafka e Spark.
Esecuzione del provisioning di HDInsight, creazione di un producer Kafka e trasmissione dei dati Kafka a un notebook di Jupyter.
La modalità di replica dei dati in un cluster secondario.

Prerequisiti

Devono essere soddisfatti i prerequisiti seguenti:

Accesso al portale di Azure.
Conoscenza delle opzioni di archiviazione di Azure.
Conoscenza delle opzioni di calcolo di Azure.
Creazione e configurazione di un cluster HDInsight nel portale di Azure.