Использование Apache Spark в Azure Databricks
Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.
Цели обучения
В этом модуле рассматриваются следующие задачи:
- описание ключевых элементов архитектуры Apache Spark;
- создание и настройка кластера Spark;
- описание вариантов использования Spark;
- использование Spark для обработки и анализа хранимых данных в файлах;
- визуализация данных с помощью Spark.
Предварительные требования
Для прохождения этого модуля вы должны понимать основные принципы работы Azure Databricks. Прежде чем использовать этот модуль, рассмотрите возможность изучения модуля Azure Databricks .