Execute transformações avançadas de dados de streaming com o Apache Spark e o Kafka no Azure HDInsight
Neste módulo, você aprenderá a criar pipelines e aplicativos de análise de dados de streaming em tempo real na nuvem usando o Azure HDInsight com Apache Kafka e Apache Spark.
Objetivos de aprendizagem
No final deste módulo, você entende:
- Quando usar o Apache Spark e o Kafka com o HDInsight.
- Spark Streaming estruturado.
- A arquitetura de uma solução Kafka e Spark.
- Como provisionar o HDInsight, criar um produtor Kafka e transmitir dados Kafka para um notebook Jupyter.
- Como replicar dados para um cluster secundário.
Pré-requisitos
Devem ser preenchidos os seguintes pré-requisitos:
- Inicie sessão com êxito no portal do Azure.
- Entenda as opções de armazenamento do Azure.
- Entenda as opções de computação do Azure.
- Crie e configure um Cluster HDInsight no portal do Azure.