Installer les dépendances de notebook
Vous pouvez installer les dépendances Python pour les notebooks serverless à l’aide du panneau latéral Environnement. Ce panneau est un emplacement unique qui permet de modifier, d’afficher et d’exporter les exigences de bibliothèque d’un notebook. Ces dépendances peuvent être ajoutées à l’aide d’un environnement de base ou individuellement.
Pour les tâches non liées à un notebook, consultez la section Configurer des environnements et des dépendances pour les tâches non-notebook.
Important
N’installez pas PySpark ou toute bibliothèque qui installe PySpark en tant que dépendance sur vos notebooks serverless. Si vous l’effectuez, votre session stoppera et entraînera une erreur. Si cela se produit, réinitialisez votre environnement.
Configurer un environnement de base
Un environnement de base est un fichier YAML stocké en tant que fichier d’espace de travail ou sur un volume Unity Catalog qui spécifie des dépendances d’environnement supplémentaires. Les environnements de base peuvent être partagés entre les notebooks. Pour configurer un environnement de base :
Créez un fichier YAML qui définit les paramètres d’un environnement virtuel Python. L’exemple YAML suivant, basé sur la spécification de l’environnement des projets MLflow, définit un environnement de base avec quelques dépendances de bibliothèque :
client: "1" dependencies: - --index-url https://pypi.org/simple - -r "/Workspace/Shared/requirements.txt" - my-library==6.1 - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl" - git+https://github.com/databricks/databricks-cli
Chargez le fichier YAML en tant que fichier d’espace de travail ou sur un volume Unity Catalog. Consultez Importer un fichier ou Charger des fichiers sur un volume Unity Catalog.
À droite du notebook, cliquez sur le bouton pour développer le panneau Environment. Ce bouton s’affiche uniquement lorsqu’un notebook est connecté au calcul serverless.
Dans le champ Base Environment, entrez le chemin d’accès au fichier YAML chargé, ou accédez-y et sélectionnez-le.
Cliquez sur Appliquer. Cela installe les dépendances dans l’environnement virtuel du notebook et redémarre le processus Python.
Les utilisateurs peuvent remplacer les dépendances spécifiées dans l’environnement de base en installant des dépendances individuellement.
Configurer l’environnement de notebook
Vous pouvez également installer des dépendances sur un notebook connecté à un calcul serverless à l’aide de l’onglet Dependencies du panneau Environment :
- À droite du notebook, cliquez sur le bouton pour développer le panneau Environment. Ce bouton s’affiche uniquement lorsqu’un notebook est connecté au calcul serverless.
- Sélectionnez l’image cliente dans la liste déroulante Version du client. Consultez les images client serverless. Databricks recommande de choisir la dernière version pour obtenir les fonctionnalités de notebook les plus récentes.
- Dans la section Dependencies, cliquez sur Add Dependency et entrez le chemin d’accès à la dépendance de bibliothèque dans le champ. Vous pouvez spécifier une dépendance dans n’importe quel format valide dans un fichier requirements.txt.
- Cliquez sur Appliquer. Cela installe les dépendances dans l’environnement virtuel du notebook et redémarre le processus Python.
Remarque
Un travail utilisant le calcul serverless installe la spécification d’environnement du notebook avant d’exécuter le code du notebook. Cela signifie qu’il n’est pas nécessaire d’ajouter des dépendances lors de la planification des notebooks en tant que travaux. Voir Configurer des environnements et des dépendances.
Afficher les dépendances installées et les journaux pip
Pour afficher les dépendances installées, cliquez sur Installed dans le panneau latéral Environments d’un notebook. Les journaux d’installation pip pour l’environnement de notebook sont également disponibles en cliquant sur Pip logs en bas du panneau.
Réinitialiser l’environnement
Si votre notebook est connecté à un calcul serverless, Databricks met automatiquement en cache le contenu de l’environnement virtuel du notebook. Cela signifie que vous n’avez généralement pas besoin de réinstaller les dépendances Python spécifiées dans le panneau Environment lorsque vous ouvrez un notebook existant, même s’il a été déconnecté pour cause d’inactivité.
La mise en cache de l’environnement virtuel Python s’applique également aux travaux. Cela signifie que les exécutions suivantes de travaux sont plus rapides, car les dépendances requises sont déjà disponibles.
Remarque
Si vous modifiez l’implémentation d’un package Python personnalisé utilisé dans un travail sur serverless, vous devez également mettre à jour son numéro de version afin que les travaux puissent récupérer la dernière implémentation.
Pour effacer le cache de l’environnement et effectuer une nouvelle installation des dépendances spécifiées dans le panneau Environment d’un notebook attaché au calcul serverless, cliquez sur la flèche en regard de Apply, puis cliquez sur Reset environment.
Remarque
Réinitialisez l’environnement virtuel si vous installez des packages qui arrêtent ou modifient le notebook principal ou l’environnement Apache Spark. Le fait de détacher le notebook du calcul serverless et de le rattacher n’efface pas nécessairement l’ensemble du cache de l’environnement.
Configurer des environnements et des dépendances pour les tâches non-notebook
Pour d’autres types de tâches pris en charge, tels que le script Python, la roue Python ou les tâches dbt, un environnement par défaut inclut les bibliothèques Python installées. Pour afficher la liste des bibliothèques installées, consultez la section Bibliothèques Python installées de la version cliente que vous utilisez. Consultez les images client serverless. Si une tâche nécessite une bibliothèque Python qui n’est pas installée, vous pouvez installer la bibliothèque à partir de fichiers d’espace de travail, de volumes de catalogue Unity ou de référentiels de packages publics. Pour ajouter une bibliothèque lorsque vous créez ou modifiez une tâche :
Dans le menu déroulant Environnement et bibliothèques, cliquez sur en regard de l’environnement par défaut ou cliquez sur + Ajouter un nouvel environnement.
Sélectionnez l’image cliente dans la liste déroulante Version du client. Consultez les images client serverless. Databricks recommande de choisir la dernière version pour obtenir les fonctionnalités les plus récentes.
Dans la boîte de dialogue Configurer l’environnement, cliquez sur + Ajouter une bibliothèque.
Sélectionnez le type de dépendance dans le menu déroulant sous Bibliothèques.
Dans la zone de texte Chemin d’accès au fichier, entrez le chemin d’accès à la bibliothèque.
Pour une roue Python dans un fichier d’espace de travail, le chemin d’accès doit être absolu et commencer par
/Workspace/
.Pour une roue Python dans un volume Unity Catalog, le chemin d’accès doit être
/Volumes/<catalog>/<schema>/<volume>/<path>.whl
.Pour un fichier
requirements.txt
, sélectionnez PyPi et entrez-r /path/to/requirements.txt
.
- Cliquez sur Confirmer ou + Ajouter une bibliothèque pour ajouter une autre bibliothèque.
- Si vous ajoutez une tâche, cliquez sur Créer une tâche. Si vous modifiez une tâche, cliquez sur Enregistrer la tâche.