Introdução

Concluído

O Apache Spark é uma estrutura de processamento paralelo de código aberto para processamento e análise de dados em larga escala. O Spark tornou-se extremamente popular em cenários de processamento de "Big Data" e está disponível em várias implementações de plataforma; incluindo o Azure HDInsight, o Azure Databricks e o Azure Synapse Analytics.

Este módulo explora como você pode usar o Spark no Azure Synapse Analytics para ingerir, processar e analisar dados de um data lake. Embora as principais técnicas e código descritos neste módulo sejam comuns a todas as implementações do Spark, as ferramentas integradas e a capacidade de trabalhar com o Spark no mesmo ambiente que outros runtimes de análise do Synapse são específicas para o Azure Synapse Analytics.

Depois de concluir este módulo, você poderá:

  • Identificar os principais recursos e funcionalidades do Apache Spark.
  • Configurar um pool do Spark no Azure Synapse Analytics.
  • Executar código para carregar, analisar e visualizar dados em um notebook do Spark.