Tâche de Notebook pour les travaux

Article
10/14/2024

Utilisez la tâche de Notebook pour déployer des Notebooks Databricks.

Configurer une tâche de Notebook

Avant de commencer, vous devez disposer de votre Notebook dans un emplacement accessible par l’utilisateur qui configure le travail.

Remarque

L’interface utilisateur des travaux affiche les options de manière dynamique en fonction d’autres paramètres configurés.

Pour commencer le flux afin de configurer une tâche Notebook :

Accédez à l’onglet Tâches de l’interface utilisateur des travaux.
Dans le menu déroulant Type, sélectionnez Notebook.

Configurer la source

Dans le menu déroulant Source, sélectionnez un emplacement pour le script Python à l’aide de l’une des options suivantes.

Espace de travail

Utilisez Espace de travail pour configurer un Notebook stocké dans l’espace de travail en procédant comme suit :

Cliquez sur le champ Chemin d’accès. La boîte de dialogue Sélectionner un Notebook s’affiche.
Accédez au Notebook, cliquez pour mettre le fichier en surbrillance, puis cliquez sur Confirmer.

Remarque

Vous pouvez utiliser cette option pour configurer une tâche pour un Notebook stocké dans un dossier Git Databricks. Databricks recommande d’utiliser l’option Fournisseur Git et un référentiel Git distant pour les ressources de version planifiées avec des travaux.

Fournisseur Git

Utilisez Fournisseur Git pour configurer un Notebook dans un référentiel Git distant.

Les options affichées par l’interface utilisateur dépendent de la configuration ou non d’un fournisseur Git à un autre emplacement. Un seul référentiel Git distant peut être utilisé pour toutes les tâches d’un travail. Consultez Utiliser Git avec des projets.

Important

Les notebooks créés par des travaux Azure Databricks qui s’exécutent à partir de référentiels Git distants sont éphémères et ne peuvent pas être pris en compte pour suivre les exécutions, expériences ou modèles MLflow. Lors de la création d’un notebook à partir d’une tâche, utilisez une expérience MLflow d’espace de travail (au lieu d’une expérience MLflow de notebook) et appelez mlflow.set_experiment("/path/to/experiment") dans le notebook de l’espace de travail avant d’exécuter un code de suivi MLflow. Pour plus d’informations, consultez Empêcher la perte de données dans les expériences MLflow.

Le champ Chemin d’accès s’affiche une fois que vous avez configuré une référence Git.

Entrez le chemin d’accès relatif de votre Notebook, par exemple etl/bronze/ingest.py.

Important

Lorsque vous entrez le chemin d’accès relatif, ne commencez pas par / ou ./. Par exemple, si le chemin absolu du notebook auquel vous souhaitez accéder est /etl/bronze/ingest.py, entrez etl/bronze/ingest.py dans le champ Chemin d’accès.

Configurer des bibliothèques de calcul et dépendantes

Utilisez Capacité de calcul pour sélectionner ou configurer un groupement qui prend en charge la logique dans votre Notebook.
Si vous utilisez la capacité de calcul Serverless, utilisez le champ Environnement et bibliothèques pour sélectionner, modifier ou ajouter un nouvel environnement. Consultez Installer les dépendances de notebook.
Pour toutes les autres configurations de calcul, cliquez sur + Ajouter sous Bibliothèques dépendantes. La boîte de dialogue Ajouter une bibliothèque dépendante apparaît.
- Vous pouvez sélectionner une bibliothèque existante ou en charger une nouvelle.
- Vous pouvez uniquement utiliser des bibliothèques stockées dans un emplacement pris en charge par vos configurations de calcul. Voir Prise en charge des bibliothèques Python.
- Chaque source de bibliothèque présente un flux différent pour la sélection ou le chargement d’une bibliothèque. Consultez Bibliothèques.

Finaliser la configuration du travail

(Facultatif) Configurez Paramètres en tant que paires clé-valeur accessibles dans le Notebook à l’aide de dbutils.widgets. Consultez Configurer les paramètres de tâche.
Cliquez sur Enregistrer la tâche.

Limites

La sortie totale des cellules du notebook (la sortie combinée de toutes les cellules du notebook) est soumise à une limite de taille de 20 Mo. En outre, la sortie de cellule individuelle est soumise à une limite de taille de 8 Mo. Si la sortie totale des cellules dépasse 20 Mo, ou si la sortie d’une cellule individuelle est supérieure à 8 Mo, l’exécution est annulée et marquée comme ayant échoué.

Si vous avez besoin d’aide pour trouver les cellules proches ou au-delà de la limite, exécutez le notebook sur un cluster à usage général et utilisez cette technique d’enregistrement automatique du notebook.

Partager via