Введение

1 минута

Azure Databricks — это платформа с широкими возможностями масштабирования для анализа и обработки данных с использованием Apache Spark.

Гибкая платформа Spark поддерживает множество различных языков программирования и API-интерфейсов. Настроив рабочую область Databricks и развернув кластеры Spark, пользователи могут легко получать данные из различных источников, таких как Azure Data Lake или Cosmos DB, в Кадры данных Spark. В интерактивных записных книжках Databricks пользователи могут выполнять сложные преобразования данных с помощью API Кадра данных Spark, который включает такие операции, как фильтрация, группирование и агрегирование. Большинство задач обработки и аналитики данных можно выполнять с помощью API DataFrame, на котором мы и сосредоточимся в этом модуле.

В этом модуле рассматриваются следующие задачи:

описание ключевых элементов архитектуры Apache Spark;
создание и настройка кластера Spark;
описание вариантов использования Spark;
использование Spark для обработки и анализа хранимых данных в файлах;
визуализация данных с помощью Spark.

Введение

Обратная связь