Configurer les dossiers Git (Repos) Databricks
Découvrez comment configurer les dossiers Databricks Git (anciennement Repos) pour la gestion de version. Une fois que vous avez configuré les dossiers Databricks Git, vous pouvez effectuer des opérations Git courantes telles que le clonage, l’extraction, la validation, l’envoi (push), le tirage (pull) et la gestion des branches à partir de l’interface utilisateur Databricks. Vous pouvez également voir les différences de vos modifications à mesure de vos développements avec des notebooks et des fichiers dans Databricks.
Configurer les paramètres utilisateur
Les dossiers Databricks Git utilise un jeton d’accès personnel (PAT) ou des informations d’identification équivalentes pour s’authentifier auprès de votre fournisseur Git afin d’effectuer des opérations telles que le clonage, l’envoi (push), le tirage (pull), etc. Pour utiliser les dossiers Git, vous devez d’abord ajouter votre PAT Git et le nom d’utilisateur du fournisseur Git à Databricks. Consultez Configurer des informations d’identification Git et connecter un dépôt distant à Azure Databricks.
Vous pouvez cloner des dépôts distants publics sans informations d’identification Git (jeton d’accès personnel et nom d’utilisateur). Pour modifier un référentiel distant public ou pour cloner ou modifier un référentiel distant privé, vous devez disposer d’un nom d’utilisateur de fournisseur Git et d’un PAT avec des autorisations d’écriture (au minimum) pour le référentiel distant.
Les dossiers Git sont activés par défaut. Pour plus de détails sur l’activation ou la désactivation de la prise en charge des dossiers Git, voir Activer ou désactiver la fonctionnalité de dossier Git de Databricks.
Ajouter ou modifier des informations d’identification Git dans Databricks
Important
Les dossiers Databricks Git ne prennent pas en charge qu’une seule information d’identification Git par utilisateur et par espace de travail.
Sélectionnez la flèche vers le bas en regard du nom du compte en haut à droite de votre écran, puis sélectionnez Paramètres.
Sélectionnez l’onglet Comptes liés.
Si vous ajoutez des informations d’identification pour la première fois, suivez les instructions à l’écran.
Si vous avez déjà entré des informations d’identification, cliquez sur le bouton Configurer>Modifier et passez à l’étape suivante.
Dans la liste déroulante du fournisseur Git, sélectionnez le nom du fournisseur.
Entrez le nom d’utilisateur ou l’adresse e-mail Git.
Dans le champ Jeton, ajoutez un jeton d’accès personnel (PAT) ou d’autres informations d’identification de votre fournisseur Git. Pour plus d’informations, consultez Configurer des informations d’identification Git et connecter un dépôt distant à Azure Databricks.
Important
Databricks vous recommande de définir une date d’expiration pour tous les jetons d’accès personnels.
Pour Azure DevOps, si vous n’entrez pas de jeton ou de mot de passe d’application, l’intégration Git utilise votre jeton Microsoft Entra ID par défaut. Si vous entrez un jeton d’accès personnel Azure DevOps, l’intégration Git l’utilise à la place. Consultez Se connecter à un dépôt Azure DevOps à l’aide d’un jeton.
Remarque
Après avoir actualisé votre mot de passe Azure, authentifiez-vous à nouveau auprès d’Azure Databricks si vous avez besoin de la nouvelle authentification immédiatement. Si vous ne vous authentifiez pas à nouveau, la connexion Azure DevOps peut ne pas être validée pendant 24 heures au plus.
Si votre organisation bénéficie d’une authentification unique SAML activée dans GitHub, autorisez votre jeton d’accès personnel pour l’authentification unique.
Entrez votre nom d’utilisateur dans le champ Nom d’utilisateur du fournisseur Git.
Cliquez sur Enregistrer.
Vous pouvez également enregistrer un jeton d’accès personnel Git et un nom d’utilisateur dans Azure Databricks à l’aide de l’API Databricks Repos.
Si vous ne parvenez pas à cloner le référentiel et vous utilisez Azure DevOps avec l’authentification Microsoft Entra ID, consultez Problème avec la stratégie d’accès conditionnel (CAP) pour Microsoft Entra ID.
Connectivité réseau entre les dossiers Databricks Git et un fournisseur Git
Les dossiers Git ont besoin d’une connectivité réseau à votre fournisseur Git pour fonctionner. Cela se fait normalement sur Internet, sans actions nécessaires. Toutefois, vous avez peut-être configuré des restrictions supplémentaires sur votre fournisseur Git pour contrôler l’accès. Par exemple, vous pouvez avoir une liste d’adresses IP autorisées en place ou héberger votre propre serveur Git local à l’aide de services tels que GitHub Enterprise (GHE), Bitbucket Server (BBS) ou Gitlab auto-managé. En fonction de l’hébergement et de la configuration de votre réseau, votre serveur Git pourrait ne pas être accessible via Internet.
Remarque
- Si votre serveur Git est accessible par Internet mais dispose d’une liste d’adresses IP autorisées, comme les listes d’autorisation de GitHub, vous devez ajouter les adresses IP NAT du plan de contrôle Azure Databricks à la liste d’adresses IP autorisées du serveur Git. Consultez Régions Azure Databricks pour obtenir la liste des adresses IP NAT du plan de contrôle par région. Utilisez l’adresse IP de la région dans laquelle se trouve l’espace de travail Azure Databricks.
- Si vous hébergez un serveur Git privé, lisez Configurer la connectivité Git privée pour les dossiers Azure Databricks Git (Repos) ou contactez l’équipe de votre compte Azure Databricks pour obtenir des instructions d’accès.
Fonctionnalités de sécurité dans les dossiers Git
Les dossiers Git Databricks ont de nombreuses fonctionnalités de sécurité. Les sections suivantes vous guident à travers leur configuration et leur utilisation :
- Utilisation d’informations d’identification Git chiffrées
- Une liste blanche
- Contrôle d’accès aux espaces de travail
- Journalisation d’audit
- Détection des secrets
Bring Your Own Key(Apportez vos propres clés) : chiffrer des informations d’identification Git
Vous pouvez utiliser Azure Key Vault pour chiffrer un jeton d’accès personnel (PAT) Git ou d’autres informations d’identification Git. L’utilisation d’une clé à partir d’un service de chiffrement est appelée clé gérée par le client (CMK) ou BYOK (Bring Your Own Key).
Pour plus d’informations, consultez Chiffrement à l’aide de clés gérées par le client.
Limiter l’utilisation aux URL d’une liste d’autorisation
Si vous utilisez Microsoft Entra ID pour l’authentification auprès d’Azure DevOps, la liste verte par défaut limite les URL Git aux URL suivantes :
- dev.azure.com
- visualstudio.com
Pour AAD avec des alias personnalisés d’URL CNAMES ou Git, votre administrateur d’espace de travail peut configurer une liste verte personnalisée, comme indiqué dans les étapes suivantes. Si vous utilisez une liste verte personnalisée, votre administrateur d’espace de travail doit ajouter ces URL si vous souhaitez les utiliser : dev.azure.com
et visualstudio.com
.
Un administrateur d’espace de travail peut limiter les clonages, commits et envois (push) effectués par les utilisateurs à certains dépôts distants. Cela permet d’éviter l’exfiltration de votre code. Par exemple, les utilisateurs ne peuvent pas envoyer (push) un code vers un référentiel arbitraire si vous avez activé des restrictions de liste d’autorisation. Vous pouvez également empêcher les utilisateurs d’utiliser du code sans licence en limitant l’opération de clonage à une liste de référentiels autorisés.
Pour configurer une liste d’autorisation :
Accédez à la page des paramètres.
Cliquez sur l’onglet Administrateur(-trice) de l’espace de travail (il est ouvert par défaut).
Dans la section Développement, choisissez une option à partir de l’autorisation de liste Git URL :
- Désactivé (aucune restriction) : aucune vérification n’est effectuée sur la liste verte.
- Restreindre les clonages, les commits et les envois aux référentiel Git autorisés : les opérations cloner, commiter et envoyer sont autorisées uniquement pour les URL de référentiel figurant dans la liste verte.
- Restreindre uniquement les commits et les envois vers les référentiels Git autorisés : les opérations commiter et envoyer sont autorisées uniquement pour les URL de référentiel figurant dans la liste verte. Les opérations de clonage et d’extraction ne sont pas limitées.
Cliquez sur le bouton Modifier à côté de la liste verte Git URL : Liste vide et entrez une liste de préfixes d’URL séparés par des virgules.
Cliquez sur Enregistrer.
Remarque
- La liste que vous enregistrez remplace l’ensemble existant de préfixes d’URL enregistrés.
- L’application des modifications peut prendre jusqu’à 15 minutes.
Autoriser l’accès à tous les référentiels
Pour désactiver une liste verte existante et autoriser l’accès à tous les référentiels :
- Accédez à la page des paramètres.
- Cliquez sur l’onglet Administration de l’espace de travail.
- Dans la section Développement, sous Autorisation de liste verte de l’URL Git : sélectionnez Désactiver (aucune restriction).
Contrôler l’accès d’un référentiel dans votre espace de travail
Remarque
Le contrôle d'accès est disponible uniquement dans le plan Premium.
Définissez les autorisations d’un référentiel pour contrôler l’accès. Les autorisations d’un référentiel s’appliquent à tout le contenu de ce référentiel. Vous pouvez affecter cinq niveaux d’autorisation aux fichiers : AUCUNE AUTORISATION, PEUT LIRE, PEUT EXÉCUTER, PEUT MODIFIER et PEUT GÉRER.
Pour plus de détails sur les permissions des dossiers Git, voir Dossier Git ACLs.
(facultatif) Configurer un proxy pour des serveurs d’entreprise Git
Si votre entreprise utilise un service local Git d’entreprise, tel que GitHub Enterprise ou Azure DevOps Server, vous pouvez utiliser le Proxy de serveur Git Databricks pour connecter vos espaces de travail Databricks au référentiel qu’il sert.
Journalisation d’audit
Quand la journalisation d’audit est activée, les événements d’audit sont consignés lorsque vous interagissez avec un dossier Git. Par exemple, un événement d’audit est enregistré lorsque vous créez, mettez à jour ou supprimez un dossier Git, lorsque vous listez tous les dossiers Git associés à un espace de travail et lorsque vous synchronisez les modifications entre votre dossier Git et le référentiel Git distant.
Détection des secrets
Les dossiers Git analysent le code des ID de clé d’accès qui commencent par le préfixe AKIA
et avertissent l’utilisateur(-trice) avant d’opérer la validation.
Utiliser un fichier de configuration de référentiel
Vous pouvez ajouter des paramètres pour chaque notebook à votre référentiel dans un fichier .databricks/commit_outputs
que vous créez manuellement.
Spécifiez le notebook pour lequel vous voulez inclure des sorties en utilisant des modèles similaires aux modèles gitignore.
Modèles pour un fichier de configuration de référentiel
Le fichier contient des modèles de chemin d’accès aux fichiers positifs et négatifs. Les modèles de chemin d’accès de fichier incluent l’extension de fichier notebook, telle que .ipynb
.
- Les modèles positifs permettent l’inclusion de sorties pour des notebooks correspondants.
- Les modèles négatifs désactivent l’inclusion de sorties pour des notebooks correspondants.
Les modèles sont évalués dans l’ordre pour tous les notebooks. Les chemins d’accès non valides ou ceux qui ne sont pas résolus en notebooks .ipynb
sont ignorés.
Pour inclure des sorties à partir d’un chemin d’accès de notebookfolder/innerfolder/notebook.ipynb
, utilisez les modèles suivants :
**/*
folder/**
folder/innerfolder/note*
Pour exclure des sorties d’un notebook, vérifiez qu’aucun des modèles positifs ne correspond ou n’ajoute un modèle négatif dans un emplacement correct du fichier de configuration. Les modèles négatifs (exclure) commencent par !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Déplacer le dossier Git vers la corbeille (supprimer)
Pour supprimer un dossier Git de votre espace de travail :
Faites un clic droit sur le dossier Git, puis sélectionnez Déplacer vers la corbeille.
Dans la boîte de dialogue, tapez le nom du dossier Git que vous souhaitez supprimer. Cliquez ensuite sur Confirmer et placer dans la corbeille.
Étapes suivantes
- Exécuter des opérations Git sur Dossiers Git Databricks (Repos)
- Que sont les fichiers d’espace de travail ?
- Techniques CI/CD avec Git et les dossiers Git Databricks (référentiels)
- Configurer la connectivité Git privée pour Dossiers Git Azure Databricks (Repos)
- Exécuter un premier travail dbt avec les dossiers Git