Implémenter une solution d’analytique data lakehouse avec Azure Databricks
Apprenez comment exploiter la puissance d’Apache Spark et des clusters puissants fonctionnant sur la plateforme Azure Databricks pour exécuter des charges de travail d’ingénierie de données volumineuses dans le cloud.
Prérequis
Aucune
Code de réussite
Souhaitez-vous demander un code de réussite ?
Modules de ce parcours d’apprentissage
Azure Databricks est un service cloud qui fournit une plateforme scalable pour l’analytique données à l’aide d’Apache Spark.
Découvrez comment effectuer une analyse des données à l’aide d’Azure Databricks. Explorez différentes méthodes d’ingestion de données et comment intégrer des données à partir de sources telles qu’Azure Data Lake et Azure SQL Database. Ce module vous guide tout au long de l’utilisation de notebooks collaboratifs pour effectuer une analyse exploratoire des données (EDA), afin de pouvoir visualiser, manipuler et examiner des données pour découvrir des modèles, des anomalies et des corrélations.
Azure Databricks repose sur Apache Spark et permet aux ingénieurs et analystes Données d’exécuter des travaux Spark pour transformer, analyser et visualiser des données à grande échelle.
Delta Lake est une solution de gestion des données dans Azure Databricks qui fournit des fonctionnalités, notamment des transactions ACID, une application de schéma et un temps de trajet veillant aux fonctionnalités de contrôle de version, d’intégrité et de cohérence des données.
La création de pipelines de données avec delta Live Tables permet un traitement des données en temps réel, évolutif et fiable à l’aide des fonctionnalités avancées de Delta Lake dans Azure Databricks
Le déploiement de charges de travail avec les flux de travail Azure Databricks implique l’orchestration et l’automatisation de pipelines de traitement de données complexes, de flux de travail de Machine Learning et de tâches analytiques. Dans ce module, vous apprenez à déployer des charges de travail avec des flux de travail Databricks.