Implementación de una solución de análisis de almacén de lago de datos con Azure Databricks

Intermedio
Ingeniero de datos
Azure Databricks

Obtenga información sobre cómo aprovechar todas las ventajas de Apache Spark y los eficaces clústeres que se ejecutan en la plataforma de Azure Databricks para ejecutar grandes cargas de trabajo de ingeniería de datos en la nube.

Requisitos previos

None

Módulos en esta ruta de aprendizaje

Azure Databricks es un servicio en la nube que proporciona una plataforma escalable para el análisis de datos mediante Apache Spark.

Aprenda a realizar análisis de datos con Azure Databricks. Explore varios métodos de ingesta de datos y cómo integrar datos de orígenes como Azure Data Lake y Azure SQL Database. Este módulo le guía en el uso de cuadernos colaborativos para realizar análisis exploratorios de datos (EDA), de modo que pueda visualizar, manipular y examinar los datos para descubrir patrones, anomalías y correlaciones.

Azure Databricks se basa en Apache Spark y permite a los ingenieros y analistas de datos ejecutar trabajos de Spark para transformar, analizar y visualizar datos a escala.

Delta Lake es una solución de administración de datos en Azure Databricks que proporciona características que incluyen transacciones ACID, aplicación de esquemas y viajes de tiempo, lo que garantiza la coherencia, integridad y control de versiones de los datos.

La creación de canalizaciones de datos con Delta Live Tables permite el procesamiento de datos en tiempo real, escalable y confiable mediante las características avanzadas de Delta Lake en Azure Databricks

La implementación de cargas de trabajo con Flujos de trabajo de Azure Databricks implica la orquestación y automatización de canalizaciones complejas de procesamiento de datos, flujos de trabajo de aprendizaje automático y tareas de análisis. En este módulo, aprenderá a implementar cargas de trabajo con flujos de trabajo de Databricks.