Введение
Azure Databricks — это платформа с широкими возможностями масштабирования для анализа и обработки данных с использованием Apache Spark.
Гибкая платформа Spark поддерживает множество различных языков программирования и API-интерфейсов. Настроив рабочую область Databricks и развернув кластеры Spark, пользователи могут легко получать данные из различных источников, таких как Azure Data Lake или Cosmos DB, в Кадры данных Spark. В интерактивных записных книжках Databricks пользователи могут выполнять сложные преобразования данных с помощью API Кадра данных Spark, который включает такие операции, как фильтрация, группирование и агрегирование. Большинство задач обработки и аналитики данных можно выполнять с помощью API DataFrame, на котором мы и сосредоточимся в этом модуле.
В этом модуле рассматриваются следующие задачи:
- описание ключевых элементов архитектуры Apache Spark;
- создание и настройка кластера Spark;
- описание вариантов использования Spark;
- использование Spark для обработки и анализа хранимых данных в файлах;
- визуализация данных с помощью Spark.