Realización de transformaciones avanzadas de datos de streaming con Apache Spark y Kafka en Azure HDInsight

Módulo
11 Unidades

Intermedio

Ingeniero de datos

Científico de datos

HDInsight de Azure

En este módulo, descubrirás cómo crear canalizaciones y aplicaciones de análisis de datos de streaming en tiempo real en la nube mediante Azure HDInsight con Apache Kafka y Apache Spark.

Objetivos de aprendizaje

Al final de este módulo, comprenderás:

Cuándo usar Apache Spark y Kafka con HDInsight.
Spark Structured Streaming.
La arquitectura de una solución de Kafka y Spark.
Cómo aprovisionar HDInsight, crear de un productor de Kafka y transmitir de datos de Kafka a un cuaderno de Jupyter Notebook.
Cómo replicar datos en un clúster secundario.

Requisitos previos

Se deben completar los siguientes requisitos previos:

Inicio de sesión correcto en Azure Portal.
Descripción de las opciones de almacenamiento de Azure.
Descripción de las opciones de procesamiento de Azure.
Crearás y configurarás un clúster de HDInsight en Azure Portal.