Partage via


Gestion des bibliothèques dans Spark

Remarque

Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.

Seul le support de base est disponible jusqu’à la date de mise hors service.

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

L’objectif de la gestion des bibliothèques est de rendre le code open source ou personnalisé à la disposition de notebooks et de travaux en cours d’exécution sur vos clusters. Vous pouvez charger des bibliothèques Python à partir de référentiels PyPI. Cet article se concentre sur la gestion des bibliothèques dans l’interface utilisateur du cluster. Azure HDInsight sur AKS inclut déjà de nombreuses bibliothèques courantes dans le cluster. Pour voir quelles sont les bibliothèques incluses dans HDI sur le cluster AKS, consultez la page de gestion des bibliothèques.

Installation des bibliothèques

Vous pouvez installer des bibliothèques en deux modes :

  • Bibliothèques installées sur un cluster
  • Bibliothèques délimitées aux notebooks

Bibliothèques installées sur un cluster

Tous les notebooks s’exécutant sur un cluster peuvent utiliser les bibliothèques de cluster. Vous pouvez installer une bibliothèque de cluster directement à partir d’un référentiel public tel que PyPi. Le chargement à partir de référentiels Maven et le chargement de bibliothèques personnalisées à partir du stockage cloud sont dans la feuille de route.

Capture d’écran montrant la page du gestionnaire de bibliothèque installé sur le cluster.

Bibliothèques délimitées aux notebooks

Les bibliothèques délimitées au notebook, disponibles pour Python et Scala, vous permettent d’installer des bibliothèques et de créer un environnement délimité à une session de notebook. Ces bibliothèques n’affectent pas les autres notebooks s’exécutant sur le même cluster. Les bibliothèques délimitées au notebook ne sont pas persistantes et doivent être réinstallées pour chaque session.

Remarque

Utilisez des bibliothèques délimitées au notebook quand vous avez besoin d’un environnement personnalisé pour un notebook spécifique.

Modes d’installation d’une bibliothèque

PyPI : extraction des bibliothèques à partir du référentiel PyPI open source en mentionnant le nom et la version de la bibliothèque dans l’interface utilisateur d’installation.

Voir les bibliothèques installées

  1. Depuis la page Vue d’ensemble, accédez au Gestionnaire de bibliothèques.

    Capture d’écran montrant la page du gestionnaire de bibliothèque.

  2. À partir du Gestionnaire de cluster Spark, cliquez sur Gestionnaire de bibliothèques.

  3. Vous pouvez alors afficher la liste des bibliothèques installées.

    Capture d’écran montrant comment afficher les bibliothèques installées.

Ajouter un widget bibliothèque

PyPI

  1. À partir de l’onglet PyPI, saisissez le nom du package et la version du package..

  2. Cliquez sur Installer.

    Capture d’écran montrant comment installer PyPI.

Désinstaller des bibliothèques

Si vous ne souhaitez plus utiliser les bibliothèques, vous pouvez facilement supprimer les packages de bibliothèques via le bouton Désinstaller sur la page de gestion des bibliothèques.

  1. Sélectionnez et cliquez sur le nom de la bibliothèque

    Capture d’écran montrant comment sélectionner une bibliothèque.

  2. Cliquez sur Désinstaller dans le widget

    Capture d’écran montrant comment désinstaller une bibliothèque.

    Remarque

    • Les packages installés à partir du notebook Jupyter ne peuvent être supprimés que depuis Jupyter Notebook.
    • Les packages installés à partir du gestionnaire de bibliothèques ne peuvent être désinstallés que du gestionnaire de bibliothèques.
    • Pour mettre à niveau une bibliothèque/un package, désinstallez la version actuelle de la bibliothèque, puis réinstallez la version requise.
    • L’installation de bibliothèques à partir du notebook Jupyter est particulière à la session. Elle n’est pas persistante.
    • L’installation de packages lourds peut prendre un certain temps en raison de leur taille et de leur complexité.