Introducción
Azure Databricks ofrece una plataforma altamente escalable para el análisis y procesamiento de datos mediante Apache Spark.
Spark es una plataforma flexible que admite muchos lenguajes de programación y API diferentes. Al configurar un área de trabajo de Databricks e implementar clústeres de Spark, los usuarios pueden ingerir fácilmente datos de varios orígenes como, por ejemplo, Azure Data Lake o Cosmos DB en DataFrames de Spark. Dentro de los cuadernos interactivos de Databricks, los usuarios pueden realizar transformaciones de datos complejas mediante la API DataFrame de Spark, que incluye operaciones como filtrado, agrupación y agregación. La mayoría de las tareas de procesamiento y análisis de datos se pueden realizar mediante la API dataframe, que es lo que se explicará en este módulo.
En este módulo aprenderá a:
- Describir los elementos clave de la arquitectura de Apache Spark.
- Cree y configure un clúster de Spark.
- Describir los casos de uso de Spark.
- Use Spark para procesar y analizar los datos almacenados en archivos.
- Use Spark para visualizar los datos.