Bien démarrer avec Azure Databricks

Effectué

Azure Databricks est une plateforme d’analytique données basée sur le cloud, qui fournit un environnement unifié pour l’engineering données, le Machine Learning et l’analytique. Azure Databricks a été conçu en collaboration avec Databricks, dont les dirigeants ont créé Apache Spark. Azure Databricks offre un service d’analytique rapide, facile et collaboratif basé sur Apache Spark. Cette plateforme s’intègre étroitement aux autres services Azure, offrant une expérience simplifiée pour les utilisateurs avec une sécurité, des performances et une scalabilité améliorées. Elle permet des tâches pilotées par les données, comme la préparation des données, le Machine Learning et les workflows de science des données, ce qui en fait un outil polyvalent pour les organisations cherchant à exploiter la puissance du Big Data.

Les principales fonctionnalités d’Azure Databricks incluent son intégration native à Microsoft Entra ID, et sa capacité à utiliser d’autres services Azure, comme Stockage Azure, Azure Data Lake Storage et Azure Cosmos DB. Elle offre aussi un espace de travail interactif qui favorise la collaboration entre les scientifiques des données, les ingénieurs Données et les analystes métier. Cet environnement collaboratif prend en charge différents langages de programmation tels que Python, Scala, R et SQL, ce qui permet aux équipes de développer et d’itérer efficacement sur leurs modèles de données. En outre, Azure Databricks est conçu pour se mettre à l’échelle facilement, gérant à la fois les demandes de calcul des algorithmes de Machine Learning et les besoins liés au traitement des grands jeux de données.

Création d’un espace de travail Azure Databricks

Pour utiliser Azure Databricks, vous devez créer un espace de travail Azure Databricks dans votre abonnement Azure. Pour cela :

  • Utilisez l’interface utilisateur du portail Azure.
  • Utilisez un modèle Azure Resource Manager (ARM) ou Bicep.
  • Utilisez la cmdlet Azure PowerShell New-AzDatabricksWorkspace.
  • Utilisez la commande az databricks workspace create de l’interface de ligne de commande (CLI) Azure.

Quand vous créez un espace de travail, vous devez spécifier un des niveaux tarifaires suivants.

  • Standard : fonctionnalités de base d’Apache Spark avec intégration de Microsoft Entra ID.
  • Premium - Contrôles d’accès en fonction du rôle et autres fonctionnalités au niveau de l’entreprise.
  • Essai - Version d’essai gratuit de 14 jours d’un espace de travail de niveau Premium

Azure Databricks

Utilisation du portail Azure Databricks

Une fois que vous avez approvisionné un espace de travail Azure Databricks, vous pouvez utiliser le portail Azure Databricks pour travailler avec des données et des ressources de calcul. Le portail Azure Databricks est une interface utilisateur basée sur le web, où vous pouvez créer et gérer des ressources d’espace de travail, comme des clusters Spark, et utiliser des notebooks et des requêtes pour travailler avec des données stockées dans des fichiers et des tables.

Portail Azure Databricks