Execute transformações avançadas de dados de streaming com o Apache Spark e o Kafka no Azure HDInsight

Intermédio
Data Engineer
Data Scientist
Azure HDInsight

Neste módulo, você aprenderá a criar pipelines e aplicativos de análise de dados de streaming em tempo real na nuvem usando o Azure HDInsight com Apache Kafka e Apache Spark.

Objetivos de aprendizagem

No final deste módulo, você entende:

  • Quando usar o Apache Spark e o Kafka com o HDInsight.
  • Spark Streaming estruturado.
  • A arquitetura de uma solução Kafka e Spark.
  • Como provisionar o HDInsight, criar um produtor Kafka e transmitir dados Kafka para um notebook Jupyter.
  • Como replicar dados para um cluster secundário.

Pré-requisitos

Devem ser preenchidos os seguintes pré-requisitos:

  • Inicie sessão com êxito no portal do Azure.
  • Entenda as opções de armazenamento do Azure.
  • Entenda as opções de computação do Azure.
  • Crie e configure um Cluster HDInsight no portal do Azure.