Implementación de una solución de análisis de almacén de lago de datos con Azure Databricks

Ruta de aprendizaje
6 Módulos

Intermedio

Ingeniero de datos

Azure Databricks

Obtenga información sobre cómo aprovechar todas las ventajas de Apache Spark y los eficaces clústeres que se ejecutan en la plataforma de Azure Databricks para ejecutar grandes cargas de trabajo de ingeniería de datos en la nube.

Requisitos previos

None

Módulos en esta ruta de aprendizaje

Explorar Azure Databricks

Azure Databricks es un servicio en la nube que proporciona una plataforma escalable para el análisis de datos mediante Apache Spark.

Haga análisis de datos con Azure Databricks

Aprenda a realizar análisis de datos con Azure Databricks. Explore varios métodos de ingesta de datos y cómo integrar datos de orígenes como Azure Data Lake y Azure SQL Database. Este módulo le guía en el uso de cuadernos colaborativos para realizar análisis exploratorios de datos (EDA), de modo que pueda visualizar, manipular y examinar los datos para descubrir patrones, anomalías y correlaciones.

Uso de Apache Spark en Azure Databricks

Azure Databricks se basa en Apache Spark y permite a los ingenieros y analistas de datos ejecutar trabajos de Spark para transformar, analizar y visualizar datos a escala.

Administración de datos con Delta Lake

Delta Lake es una solución de administración de datos en Azure Databricks que proporciona características que incluyen transacciones ACID, aplicación de esquemas y viajes de tiempo, lo que garantiza la coherencia, integridad y control de versiones de los datos.

Compilación de canalizaciones de datos con Delta Live Tables

La creación de canalizaciones de datos con Delta Live Tables permite el procesamiento de datos en tiempo real, escalable y confiable mediante las características avanzadas de Delta Lake en Azure Databricks

Implementación de cargas de trabajo con flujos de trabajo de Azure Databricks

La implementación de cargas de trabajo con Flujos de trabajo de Azure Databricks implica la orquestación y automatización de canalizaciones complejas de procesamiento de datos, flujos de trabajo de aprendizaje automático y tareas de análisis. En este módulo, aprenderá a implementar cargas de trabajo con flujos de trabajo de Databricks.