Introducción
Apache Spark es un marco de procesamiento paralelo de código abierto para el procesamiento y el análisis de datos a gran escala. Spark se ha vuelto extremadamente popular en escenarios de procesamiento de "macrodatos" y está disponible en varias implementaciones de plataforma; incluidos Azure HDInsight, Azure Databricks y Azure Synapse Analytics.
En este módulo se explora cómo puede usar Spark en Azure Synapse Analytics para ingerir, procesar y analizar datos de un lago de datos. Aunque las técnicas principales y el código descritos en este módulo son comunes a todas las implementaciones de Spark, las herramientas integradas y la capacidad de trabajar con Spark en el mismo entorno que otros entornos de ejecución analíticos de Synapse son específicas de Azure Synapse Analytics.
Después de completar este módulo, podrá:
- Identificar las características y las funciones principales de Apache Spark.
- Configurar un grupo de Spark en Azure Synapse Analytics.
- Ejecutar código para cargar, analizar y visualizar datos en un cuaderno de Spark.