Implementación de una solución de análisis de almacén de lago de datos con Azure Databricks
Obtenga información sobre cómo aprovechar todas las ventajas de Apache Spark y los eficaces clústeres que se ejecutan en la plataforma de Azure Databricks para ejecutar grandes cargas de trabajo de ingeniería de datos en la nube.
Requisitos previos
None
Código de logros
¿Desea solicitar un código de logro?
Módulos en esta ruta de aprendizaje
Azure Databricks es un servicio en la nube que proporciona una plataforma escalable para el análisis de datos mediante Apache Spark.
Aprenda a realizar análisis de datos con Azure Databricks. Explore varios métodos de ingesta de datos y cómo integrar datos de orígenes como Azure Data Lake y Azure SQL Database. Este módulo le guía en el uso de cuadernos colaborativos para realizar análisis exploratorios de datos (EDA), de modo que pueda visualizar, manipular y examinar los datos para descubrir patrones, anomalías y correlaciones.
Azure Databricks se basa en Apache Spark y permite a los ingenieros y analistas de datos ejecutar trabajos de Spark para transformar, analizar y visualizar datos a escala.
Delta Lake es una solución de administración de datos en Azure Databricks que proporciona características que incluyen transacciones ACID, aplicación de esquemas y viajes de tiempo, lo que garantiza la coherencia, integridad y control de versiones de los datos.
La creación de canalizaciones de datos con Delta Live Tables permite el procesamiento de datos en tiempo real, escalable y confiable mediante las características avanzadas de Delta Lake en Azure Databricks
La implementación de cargas de trabajo con Flujos de trabajo de Azure Databricks implica la orquestación y automatización de canalizaciones complejas de procesamiento de datos, flujos de trabajo de aprendizaje automático y tareas de análisis. En este módulo, aprenderá a implementar cargas de trabajo con flujos de trabajo de Databricks.