Gestion des bibliothèques dans Spark
Remarque
Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.
Seul le support de base est disponible jusqu’à la date de mise hors service.
Important
Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.
L’objectif de la gestion des bibliothèques est de rendre le code open source ou personnalisé à la disposition de notebooks et de travaux en cours d’exécution sur vos clusters. Vous pouvez charger des bibliothèques Python à partir de référentiels PyPI. Cet article se concentre sur la gestion des bibliothèques dans l’interface utilisateur du cluster. Azure HDInsight sur AKS inclut déjà de nombreuses bibliothèques courantes dans le cluster. Pour voir quelles sont les bibliothèques incluses dans HDI sur le cluster AKS, consultez la page de gestion des bibliothèques.
Installation des bibliothèques
Vous pouvez installer des bibliothèques en deux modes :
- Bibliothèques installées sur un cluster
- Bibliothèques délimitées aux notebooks
Bibliothèques installées sur un cluster
Tous les notebooks s’exécutant sur un cluster peuvent utiliser les bibliothèques de cluster. Vous pouvez installer une bibliothèque de cluster directement à partir d’un référentiel public tel que PyPi. Le chargement à partir de référentiels Maven et le chargement de bibliothèques personnalisées à partir du stockage cloud sont dans la feuille de route.
Bibliothèques délimitées aux notebooks
Les bibliothèques délimitées au notebook, disponibles pour Python et Scala, vous permettent d’installer des bibliothèques et de créer un environnement délimité à une session de notebook. Ces bibliothèques n’affectent pas les autres notebooks s’exécutant sur le même cluster. Les bibliothèques délimitées au notebook ne sont pas persistantes et doivent être réinstallées pour chaque session.
Remarque
Utilisez des bibliothèques délimitées au notebook quand vous avez besoin d’un environnement personnalisé pour un notebook spécifique.
Modes d’installation d’une bibliothèque
PyPI : extraction des bibliothèques à partir du référentiel PyPI open source en mentionnant le nom et la version de la bibliothèque dans l’interface utilisateur d’installation.
Voir les bibliothèques installées
Depuis la page Vue d’ensemble, accédez au Gestionnaire de bibliothèques.
À partir du Gestionnaire de cluster Spark, cliquez sur Gestionnaire de bibliothèques.
Vous pouvez alors afficher la liste des bibliothèques installées.
Ajouter un widget bibliothèque
PyPI
À partir de l’onglet PyPI, saisissez le nom du package et la version du package..
Cliquez sur Installer.
Désinstaller des bibliothèques
Si vous ne souhaitez plus utiliser les bibliothèques, vous pouvez facilement supprimer les packages de bibliothèques via le bouton Désinstaller sur la page de gestion des bibliothèques.
Sélectionnez et cliquez sur le nom de la bibliothèque
Cliquez sur Désinstaller dans le widget
Remarque
- Les packages installés à partir du notebook Jupyter ne peuvent être supprimés que depuis Jupyter Notebook.
- Les packages installés à partir du gestionnaire de bibliothèques ne peuvent être désinstallés que du gestionnaire de bibliothèques.
- Pour mettre à niveau une bibliothèque/un package, désinstallez la version actuelle de la bibliothèque, puis réinstallez la version requise.
- L’installation de bibliothèques à partir du notebook Jupyter est particulière à la session. Elle n’est pas persistante.
- L’installation de packages lourds peut prendre un certain temps en raison de leur taille et de leur complexité.