Реализация решения аналитики озера данных с помощью Azure Databricks

Схема обучения
6 Модули

intermediate

data-engineer

azure-databricks

Вкратце

Level

Средний уровень
Skill

 
Продукт

Azure Databricks
Роль

Инженер по анализу и обработке данных
Тема

Инжиниринг данных

Узнайте, как использовать возможности Apache Spark и мощные кластеры, выполняемые на платформе Azure Databricks, для выполнения в облаке крупных рабочих нагрузок по инжинирингу данных.

Предварительные требования

нет

Модули, включенные в эту схему обучения

Знакомство с Azure Databricks

Azure Databricks — это облачная служба, которая предоставляет масштабируемую платформу для аналитики данных с помощью Apache Spark.

Анализ данных с помощью Azure Databricks

Узнайте, как выполнять анализ данных с помощью Azure Databricks. Изучите различные методы приема данных и как интегрировать данные из источников, таких как Azure Data Lake и База данных SQL Azure. В этом модуле вы можете использовать записные книжки для совместной работы для анализа данных (EDA), чтобы визуализировать, манипулировать и анализировать данные для выявления шаблонов, аномалий и корреляций.

Использование Apache Spark в Azure Databricks

Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.

Управление данными с помощью Delta Lake

Delta Lake — это решение для управления данными в Azure Databricks, предоставляющее функции, включая транзакции ACID, применение схем и перемещение по времени, обеспечивая согласованность данных, целостность и возможности управления версиями.

Создание конвейеров данных с помощью разностных динамических таблиц

Создание конвейеров данных с помощью Delta Live Tables позволяет выполнять обработку данных в реальном времени, масштабируемую и надежную обработку данных с помощью расширенных функций Delta Lake в Azure Databricks

Развертывание рабочих нагрузок с помощью рабочих процессов Azure Databricks

Развертывание рабочих нагрузок с помощью рабочих процессов Azure Databricks включает оркестрацию и автоматизацию сложных конвейеров обработки данных, рабочих процессов машинного обучения и задач аналитики. В этом модуле вы узнаете, как развертывать рабочие нагрузки с помощью рабочих процессов Databricks.