Introduction

Effectué

Apache Spark est un framework de traitement parallèle open source pour le traitement et l’analytique à grande échelle des données. Spark est devenu extrêmement populaire dans les scénarios de traitement de « Big Data » et est disponible dans plusieurs implémentations de plateforme, notamment Azure HDInsight, Azure Databricks et Azure Synapse Analytics.

Ce module explore comment utiliser Spark dans Azure Synapse Analytics pour ingérer, traiter et analyser les données d’un lac de données. Bien que les techniques principales et le code décrits dans ce module soient communs à toutes les implémentations Spark, les outils intégrés et la capacité à travailler avec Spark dans le même environnement que d’autres runtimes analytiques Synapse sont spécifiques à Azure Synapse Analytics.

À l’issue de ce module, vous pourrez :

  • Identifiez les principales fonctionnalités d’Apache Spark.
  • Configurez un pool Spark dans Azure Synapse Analytics.
  • Exécutez du code pour charger, analyser et visualiser des données dans un notebook Spark.