Execute transformações avançadas de dados de streaming com o Apache Spark e o Kafka no Azure HDInsight

Módulo
11 Unidades

Intermédio

Data Engineer

Data Scientist

Azure HDInsight

Neste módulo, você aprenderá a criar pipelines e aplicativos de análise de dados de streaming em tempo real na nuvem usando o Azure HDInsight com Apache Kafka e Apache Spark.

Objetivos de aprendizagem

No final deste módulo, você entende:

Quando usar o Apache Spark e o Kafka com o HDInsight.
Spark Streaming estruturado.
A arquitetura de uma solução Kafka e Spark.
Como provisionar o HDInsight, criar um produtor Kafka e transmitir dados Kafka para um notebook Jupyter.
Como replicar dados para um cluster secundário.

Pré-requisitos

Devem ser preenchidos os seguintes pré-requisitos:

Inicie sessão com êxito no portal do Azure.
Entenda as opções de armazenamento do Azure.
Entenda as opções de computação do Azure.
Crie e configure um Cluster HDInsight no portal do Azure.

Introdução min
Usar o HDInsight Spark e o Kafka min
Transmita dados com o Apache Kafka min
Descrever o streaming estruturado do Spark min
Crie uma arquitetura Kafka e Spark min
Exercício - Provisionar o HDInsight para executar transformações avançadas de dados de streaming min
Exercício - Criar o produtor Kafka min
Exercício - Transmita dados Kafka para um bloco de anotações Jupyter e janela os dados min
Replicar dados para um cluster secundário min
Verificação de conhecimento min
Resumo min