Partager via


Démarrage rapide : Créer un pool Apache Spark serverless avec Synapse Studio

Azure Synapse Analytics propose différents moteurs d’analytique pour vous aider à ingérer, transformer, modéliser, analyser et servir vos données. Un pool Apache Spark offre des fonctionnalités de calcul Big Data open source. Après avoir créé un pool Apache Spark dans votre espace de travail Synapse, vous pouvez charger, modéliser, traiter et servir les données pour obtenir des insights.

Ce guide de démarrage rapide décrit les étapes à suivre pour créer un pool Apache Spark dans un espace de travail Synapse à l’aide de Synapse Studio.

Important

La facturation des instances Spark est calculée au prorata des minutes écoulées, que vous les utilisiez ou non. Veillez à arrêter votre instance Spark une fois que vous avez fini de l’utiliser, ou définissez un délai d’expiration court. Pour plus d’informations, consultez la section Nettoyer les ressources de cet article.

Remarque

Synapse Studio continuera à prendre en charge les fichiers de configuration basés sur bicep ou terraform.

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Prérequis

Connectez-vous au portail Azure

Connectez-vous au portail Azure

  1. Accédez à l’espace de travail Synapse dans lequel vous allez créer le pool Apache Spark en saisissant le nom du service (ou directement le nom de la ressource) dans la barre de recherche. Capture d’écran de la barre de recherche du portail Azure avec saisie des espaces de travail Synapse.

  2. Dans la liste des espaces de travail, saisissez le nom (ou une partie du nom) de l’espace de travail à ouvrir. Pour cet exemple, nous utilisons un espace de travail nommé contosoanalytics. Capture d’écran du portail Azure montrant la liste des espaces de travail Synapse filtrés pour afficher ceux qui contiennent le nom Contoso.

Lancer Synapse Studio

Dans la vue d’ensemble de l’espace de travail, sélectionnez l’URL web de l’espace de travail pour ouvrir Synapse Studio.

Capture d’écran d’une vue d’ensemble des espaces de travail Synapse dans le portail Azure avec l’option Lancer Synapse Studio mise en évidence.

Créer le pool Apache Spark dans Synapse Studio

Important

Azure Synapse Runtime pour Apache Spark 2.4 est obsolète et n'est officiellement plus pris en charge depuis septembre 2023. Étant donné que la fin du support de Spark 3.1 et de Spark 3.2 a également été annoncée, nous recommandons aux clients de migrer vers Spark 3.3.

  1. Sur la page d’accueil de Synapse Studio, accédez au hub de gestion dans le volet de navigation gauche en sélectionnant l’icône Gérer. Capture d’écran de la page d’accueil de Synapse Studio dans le portail Azure avec la section Hub de gestion mise en évidence.

  2. Une fois dans le hub de gestion, accédez à la section Pools Apache Spark pour afficher la liste actuelle des pools Apache Spark disponibles dans l’espace de travail. Capture d’écran du portail Azure montrant le hub de gestion Synapse Studio avec navigation dans les pools Apache Spark sélectionnée.

  3. Sélectionnez la commande + Nouveau ; l’assistant de création d’un pool Apache Spark s’affiche.

  4. Sous l’onglet Général, entrez les informations suivantes :

    Paramètre Valeur suggérée Description
    Nom du pool Apache Spark Un nom de pool valide, comme contosospark Il s’agit du nom du pool Apache Spark.
    Taille du nœud Petite (4 processeurs virtuels/32 Go) Définissez ce paramètre sur la plus petite taille pour réduire les coûts de ce guide de démarrage rapide.
    Autoscale Désactivé Ce guide de démarrage rapide ne nécessite pas de mise à l’échelle automatique
    Nombre de nœuds 8 Utilisez une petite taille pour limiter les coûts de ce guide de démarrage rapide
    Allouer dynamiquement des exécuteurs Désactivé Ce paramètre correspond à la propriété d’allocation dynamique dans la configuration Spark pour allouer des exécuteurs d’application Spark. Ce guide de démarrage rapide ne nécessite pas de mise à l’échelle automatique.

    Capture d’écran du portail Azure montrant les informations de base du nouveau pool Apache Spark Synapse Studio.

    Important

    Il existe des limitations spécifiques concernant les noms que les pools Apache Spark peuvent utiliser. Les noms doivent contenir uniquement des lettres ou des chiffres, ne doivent pas comporter plus de 15 caractères, doivent commencer par une lettre, ne pas contenir de mots réservés et être uniques dans l’espace de travail.

  5. Sous l’onglet suivant, Paramètres supplémentaires, conservez toutes les valeurs par défaut pour les paramètres.

  6. Sélectionner Étiquettes. Envisagez d'utiliser les balises Azure. Par exemple, la balise « Owner » ou « CreatedBy » pour identifier qui a créé la ressource et la balise « Environment » pour identifier si cette ressource est en production, développement, etc. Pour plus d’informations, consultez Développer une stratégie de nommage et de catégorisation des ressources Azure. Quand vous êtes prêt, sélectionnez Vérifier + créer.

  7. Sous l’onglet Vérifier + créer, vérifiez que les informations reflètent bien ce que vous avez entré précédemment, puis cliquez sur Créer.

    Capture d’écran du portail Azure montrant Créer un pool Apache Spark Synapse Studio.

  8. Le pool Apache Spark démarre le processus d’approvisionnement.

  9. Une fois l’approvisionnement terminé, le nouveau pool Apache Spark s’affiche dans la liste.

    Capture d’écran du portail Azure montrant la liste des nouveaux pools Apache Spark Synapse Studio.

Nettoyer les ressources d’un pool Apache Spark à l’aide de Synapse Studio

Les étapes suivantes suppriment le pool Apache Spark de l’espace de travail à l’aide de Synapse Studio.

Avertissement

La suppression d’un pool Spark supprime le moteur d’analytique de l’espace de travail. Il n’est plus possible de se connecter au pool, et l’ensemble des requêtes, pipelines et notebooks qui utilisent ce pool Spark ne fonctionnent plus.

Si vous souhaitez supprimer le pool Apache Spark, procédez comme suit :

  1. Accédez aux pools Apache Spark dans le hub de gestion de Synapse Studio.

  2. Sélectionnez les points de suspension en regard du pool Apache à supprimer (dans ce cas, contosospark) pour afficher les commandes du pool Apache Spark.

    Capture d’écran du portail Azure montrant une liste de pools Apache Spark, avec le pool récemment créé qui est sélectionné.

  3. Sélectionnez Supprimer.

  4. Confirmez la suppression, puis appuyez sur le bouton Supprimer.

  5. Une fois le processus terminé, le pool Apache Spark ne figure plus dans la liste des ressources de l’espace de travail.