Realización de transformaciones avanzadas de datos de streaming con Apache Spark y Kafka en Azure HDInsight
En este módulo, descubrirá cómo crear canalizaciones y aplicaciones de análisis de datos de streaming en tiempo real en la nube mediante Azure HDInsight con Apache Kafka y Apache Spark.
Objetivos de aprendizaje
Al final de este módulo, habrá aprendido:
- Cuándo usar Apache Spark y Kafka con HDInsight.
- Spark Structured Streaming.
- La arquitectura de una solución de Kafka y Spark.
- Cómo aprovisionar HDInsight, crear de un productor de Kafka y transmitir de datos de Kafka a un cuaderno de Jupyter Notebook.
- Cómo replicar datos en un clúster secundario.
Requisitos previos
Se deben completar los siguientes requisitos previos:
- Inicio de sesión correcto en Azure Portal.
- Descripción de las opciones de almacenamiento de Azure.
- Descripción de las opciones de procesamiento de Azure.
- Creará y configurará un clúster de HDInsight en Azure Portal.