Realización de transformaciones avanzadas de datos de streaming con Apache Spark y Kafka en Azure HDInsight

Intermedio
Ingeniero de datos
Científico de datos
HDInsight de Azure

En este módulo, descubrirá cómo crear canalizaciones y aplicaciones de análisis de datos de streaming en tiempo real en la nube mediante Azure HDInsight con Apache Kafka y Apache Spark.

Objetivos de aprendizaje

Al final de este módulo, habrá aprendido:

  • Cuándo usar Apache Spark y Kafka con HDInsight.
  • Spark Structured Streaming.
  • La arquitectura de una solución de Kafka y Spark.
  • Cómo aprovisionar HDInsight, crear de un productor de Kafka y transmitir de datos de Kafka a un cuaderno de Jupyter Notebook.
  • Cómo replicar datos en un clúster secundario.

Requisitos previos

Se deben completar los siguientes requisitos previos:

  • Inicio de sesión correcto en Azure Portal.
  • Descripción de las opciones de almacenamiento de Azure.
  • Descripción de las opciones de procesamiento de Azure.
  • Creará y configurará un clúster de HDInsight en Azure Portal.