Introduction

Effectué

Apache Spark fournit une plateforme puissante pour effectuer des tâches de nettoyage et de transformation des données sur de grands volumes de données. En utilisant l’objet dataframe de Spark, vous pouvez facilement charger des données depuis des fichiers dans un lac de données et effectuer des modifications complexes. Vous pouvez ensuite réenregistrer les données transformées dans le lac de données pour un traitement en aval ou pour l’ingestion dans un entrepôt de données.

Azure Synapse Analytics fournit des pools Apache Spark que vous pouvez utiliser pour exécuter des charges de travail Spark afin de transformer des données dans le cadre d’une charge de travail d’ingestion et de préparation des données. Vous pouvez utiliser des notebooks pris en charge nativement pour écrire et exécuter du code sur un pool Spark afin de préparer des données pour l’analyse. Vous pouvez ensuite utiliser d’autres fonctionnalités d’Azure Synapse Analytics comme les pools SQL pour travailler avec les données transformées.