Executar engenharia de dados com os Conjuntos do Apache Spark no Azure Synapse

Intermédio
Data Engineer
Azure Synapse Analytics

O Apache Spark é uma solução de processamento distribuído altamente escalável para análise e transformação de big data. Você pode aproveitar seu poder no Azure Synapse Analytics usando pools do Spark.

Pré-requisitos

Antes de iniciar este caminho de aprendizagem, você deve estar familiarizado com o Azure Synapse Analytics. Considere concluir primeiro o módulo Introdução ao Azure Synapse Analytics .

Módulos neste percurso de aprendizagem

O Apache Spark é uma tecnologia central para análise de dados em larga escala. Saiba como usar o Spark no Azure Synapse Analytics para analisar e visualizar dados em um data lake.

Os engenheiros de dados geralmente precisam transformar grandes volumes de dados. Os pools do Apache Spark no Azure Synapse Analytics fornecem uma plataforma de processamento distribuída que eles podem usar para atingir essa meta.

O Delta Lake é uma área de armazenamento relacional de código aberto para o Spark que você pode usar para implementar uma arquitetura de data lakehouse no Azure Synapse Analytics.