Реализация решения аналитики озера данных с помощью Azure Databricks
Вкратце
-
Level
-
Skill
-
Продукт
-
Тема
Узнайте, как использовать возможности Apache Spark и мощные кластеры, выполняемые на платформе Azure Databricks, для выполнения в облаке крупных рабочих нагрузок по инжинирингу данных.
Предварительные требования
нет
Код достижения
Вы хотите запросить код достижения?
Модули, включенные в эту схему обучения
Azure Databricks — это облачная служба, которая предоставляет масштабируемую платформу для аналитики данных с помощью Apache Spark.
Узнайте, как выполнять анализ данных с помощью Azure Databricks. Изучите различные методы приема данных и как интегрировать данные из источников, таких как Azure Data Lake и База данных SQL Azure. В этом модуле вы можете использовать записные книжки для совместной работы для анализа данных (EDA), чтобы визуализировать, манипулировать и анализировать данные для выявления шаблонов, аномалий и корреляций.
Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.
Delta Lake — это решение для управления данными в Azure Databricks, предоставляющее функции, включая транзакции ACID, применение схем и перемещение по времени, обеспечивая согласованность данных, целостность и возможности управления версиями.
Создание конвейеров данных с помощью Delta Live Tables позволяет выполнять обработку данных в реальном времени, масштабируемую и надежную обработку данных с помощью расширенных функций Delta Lake в Azure Databricks
Развертывание рабочих нагрузок с помощью рабочих процессов Azure Databricks включает оркестрацию и автоматизацию сложных конвейеров обработки данных, рабочих процессов машинного обучения и задач аналитики. В этом модуле вы узнаете, как развертывать рабочие нагрузки с помощью рабочих процессов Databricks.