Introdução

Concluído

O Apache Spark fornece uma plataforma poderosa para executar tarefas de limpeza e transformação de dados em grandes volumes de dados. Usando o objeto de dataframe do Spark, você pode carregar facilmente dados de arquivos em um data lake e executar modificações complexas. Em seguida, você pode salvar os dados transformados de volta no data lake para processamento downstream ou ingestão em um data warehouse.

O Azure Synapse Analytics fornece pools do Apache Spark que você pode usar para executar cargas de trabalho do Spark para transformar dados como parte de uma carga de trabalho de preparação e ingestão de dados. Você pode usar blocos de anotações com suporte nativo para escrever e executar código em um pool do Spark para preparar dados para análise. Em seguida, você pode usar outros recursos do Azure Synapse Analytics, como pools SQL, para trabalhar com os dados transformados.