Introdução
O Apache Spark é uma estrutura de processamento paralelo de código aberto para processamento e análise de dados em larga escala. O Spark tornou-se extremamente popular em cenários de processamento de "Big Data" e está disponível em várias implementações de plataforma; incluindo o Azure HDInsight, o Azure Databricks e o Azure Synapse Analytics.
Este módulo explora como você pode usar o Spark no Azure Synapse Analytics para ingerir, processar e analisar dados de um data lake. Embora as principais técnicas e código descritos neste módulo sejam comuns a todas as implementações do Spark, as ferramentas integradas e a capacidade de trabalhar com o Spark no mesmo ambiente que outros runtimes de análise do Synapse são específicas para o Azure Synapse Analytics.
Depois de concluir este módulo, você poderá:
- Identificar os principais recursos e funcionalidades do Apache Spark.
- Configurar um pool do Spark no Azure Synapse Analytics.
- Executar código para carregar, analisar e visualizar dados em um notebook do Spark.