Executar a engenharia de dados com Pools do Apache Spark do Azure Synapse

Intermediário
Engenheiro de dados
Azure Synapse Analytics

O Apache Spark é uma solução de processamento distribuído altamente escalonável para análise e transformação de Big Data. Você pode aproveitar seu poder no Azure Synapse Analytics usando pools do Spark.

Pré-requisitos

Para iniciar este roteiro de aprendizagem, você deve ter familiaridade com o Azure Synapse Analytics. Considere concluir primeiro o módulo Introdução ao Azure Synapse Analytics.

Módulos neste roteiro de aprendizagem

O Apache Spark é uma tecnologia fundamental para a análise de dados em larga escala. Saiba como usar o Spark no Azure Synapse Analytics para analisar e visualizar dados em um data lake.

Em geral, os engenheiros de dados precisam transformar grandes volumes de dados. Os pools do Apache Spark no Azure Synapse Analytics fornecem uma plataforma de processamento distribuído que eles podem usar para atingir essa meta.

O Delta Lake é uma área de armazenamento relacional de código aberto do Spark que você pode usar para implementar uma arquitetura de data lakehouse no Azure Synapse Analytics.