Расширенное преобразование потоковых данных с помощью Apache Spark и Kafka в Azure HDInsight

Модуль
11 единиц(ы)

Средний уровень

Инженер по анализу и обработке данных

Специалист по обработке и анализу данных

Azure HDInsight

В этом модуле вы узнаете, как создавать конвейеры и приложения аналитики данных в режиме реального времени в облаке с помощью Azure HDInsight с Apache Kafka и Apache Spark.

Цели обучения

В конце этого модуля вы понимаете следующее:

Когда следует использовать Apache Spark и Kafka с HDInsight.
Структурированная потоковая передача Spark.
Архитектура решения Kafka и Spark.
Подготовка HDInsight, создание производителя Kafka и потоковая передача данных Kafka в записную книжку Jupyter.
Репликация данных в дополнительный кластер.

Предварительные требования

Необходимо выполнить следующее требование:

Успешно войдите в портал Azure.
Сведения о параметрах хранилища Azure.
Общие сведения о параметрах вычислений Azure.
Создайте и настройте кластер HDInsight в портал Azure.