Introduction
Azure Databricks offre une plateforme hautement scalable pour l’analytique et le traitement des données à l’aide d’Apache Spark.
Spark est une plateforme flexible qui prend en charge de nombreux langages de programmation et d’API différents. En configurant un espace de travail Databricks et en déployant des clusters Spark, les utilisateurs peuvent facilement ingérer des données à partir de différentes sources telles qu’Azure Data Lake ou Cosmos DB dans des DataFrames Spark. Dans les notebooks Databricks interactifs, les utilisateurs peuvent effectuer des transformations de données complexes à l’aide de l’API DataFrame de Spark, qui inclut des opérations telles que le filtrage, le regroupement et l’agrégation. La plupart des tâches de traitement et d’analytique des données peuvent être effectuées à l’aide de l’API Dataframe, et c’est ce sur quoi nous allons nous concentrer dans ce module.
Dans ce module, vous allez découvrir comment :
- Décrire les éléments clés de l’architecture Apache Spark.
- Créer et configurer un cluster Spark.
- Décrire les cas d’usage pour Spark.
- Utiliser Spark pour traiter et analyser les données stockées dans des fichiers.
- Utiliser Spark pour visualiser les données.