Introdução

Concluído

O Apache Spark fornece uma plataforma avançada para executar tarefas de limpeza e transformação de dados em grandes volumes de dados. Usando o objeto dataframe do Spark, você pode carregar com facilidade dados de arquivos em um data lake e fazer modificações complexas. Em seguida, você pode salvar os dados transformados de novo no data lake para processamento ou ingestão downstream em um data warehouse.

O Azure Synapse Analytics fornece pools do Apache Spark que você pode usar para executar cargas de trabalho do Spark para transformar dados como parte de uma carga de trabalho de ingestão e de preparação de dados. Use notebooks com suporte nativo para escrever e executar um código em um pool do Spark a fim de preparar dados para análise. Em seguida, use outros recursos do Azure Synapse Analytics, como pools de SQL, para trabalhar com os dados transformados.