Введение

Завершено

Azure Databricks — это платформа с широкими возможностями масштабирования для анализа и обработки данных с использованием Apache Spark.

Гибкая платформа Spark поддерживает множество различных языков программирования и API-интерфейсов. Настроив рабочую область Databricks и развернув кластеры Spark, пользователи могут легко получать данные из различных источников, таких как Azure Data Lake или Cosmos DB, в Кадры данных Spark. В интерактивных записных книжках Databricks пользователи могут выполнять сложные преобразования данных с помощью API Кадра данных Spark, который включает такие операции, как фильтрация, группирование и агрегирование. Большинство задач обработки и аналитики данных можно выполнять с помощью API DataFrame, на котором мы и сосредоточимся в этом модуле.

В этом модуле рассматриваются следующие задачи:

  • описание ключевых элементов архитектуры Apache Spark;
  • создание и настройка кластера Spark;
  • описание вариантов использования Spark;
  • использование Spark для обработки и анализа хранимых данных в файлах;
  • визуализация данных с помощью Spark.