Реализация решения аналитики озера данных с помощью Azure Databricks

intermediate
data-engineer
azure-databricks

Узнайте, как использовать возможности Apache Spark и мощные кластеры, выполняемые на платформе Azure Databricks, для выполнения в облаке крупных рабочих нагрузок по инжинирингу данных.

Предварительные требования

нет

Модули, включенные в эту схему обучения

Azure Databricks — это облачная служба, которая предоставляет масштабируемую платформу для аналитики данных с помощью Apache Spark.

Узнайте, как выполнять анализ данных с помощью Azure Databricks. Изучите различные методы приема данных и как интегрировать данные из источников, таких как Azure Data Lake и База данных SQL Azure. В этом модуле вы можете использовать записные книжки для совместной работы для анализа данных (EDA), чтобы визуализировать, манипулировать и анализировать данные для выявления шаблонов, аномалий и корреляций.

Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.

Delta Lake — это решение для управления данными в Azure Databricks, предоставляющее функции, включая транзакции ACID, применение схем и перемещение по времени, обеспечивая согласованность данных, целостность и возможности управления версиями.

Создание конвейеров данных с помощью Delta Live Tables позволяет выполнять обработку данных в реальном времени, масштабируемую и надежную обработку данных с помощью расширенных функций Delta Lake в Azure Databricks

Развертывание рабочих нагрузок с помощью рабочих процессов Azure Databricks включает оркестрацию и автоматизацию сложных конвейеров обработки данных, рабочих процессов машинного обучения и задач аналитики. В этом модуле вы узнаете, как развертывать рабочие нагрузки с помощью рабочих процессов Databricks.