Расширенное преобразование потоковых данных с помощью Apache Spark и Kafka в Azure HDInsight
В этом модуле вы узнаете, как создавать конвейеры и приложения аналитики данных в режиме реального времени в облаке с помощью Azure HDInsight с Apache Kafka и Apache Spark.
Цели обучения
В конце этого модуля вы понимаете следующее:
- Когда следует использовать Apache Spark и Kafka с HDInsight.
- Структурированная потоковая передача Spark.
- Архитектура решения Kafka и Spark.
- Подготовка HDInsight, создание производителя Kafka и потоковая передача данных Kafka в записную книжку Jupyter.
- Репликация данных в дополнительный кластер.
Предварительные требования
Необходимо выполнить следующее требование:
- Успешно войдите в портал Azure.
- Сведения о параметрах хранилища Azure.
- Общие сведения о параметрах вычислений Azure.
- Создайте и настройте кластер HDInsight в портал Azure.