Pipelines de déploiement et intégration Git du Lakehouse (préversion)
Le Lakehouse s’intègre aux fonctionnalités de gestion du cycle de vie dans Microsoft Fabric, ce qui permet une collaboration standardisée entre tous les membres de l’équipe de développement tout au long de la vie du produit. La gestion du cycle de vie facilite et améliore le processus de mise en production et de gestion des versions du produit en fournissant en continu des fonctionnalités et des correctifs de bogues dans divers environnements. Pour en savoir plus, consultez Qu’est-ce que la gestion du cycle de vie dans Microsoft Fabric ?.
Important
Cette fonctionnalité est en préversion.
Intégration Git du Lakehouse
Le Lakehouse est un élément qui contient des métadonnées et des données référencées dans plusieurs objets de l’espace de travail. Le Lakehouse contient des tables, des dossiers et des raccourcis qui peuvent être gérés en tant qu’éléments de conteneur de données principaux. Dans le cadre d’un workflow de développement, les objets dépendants suivants peuvent référencer un Lakehouse :
- flux de données et pipelines de données
- Définitions de travaux Spark
- Blocs-notes
- Modèles sémantiques et Power BI
Les métadonnées des modèles sémantiques par défaut et des points de terminaison d’analytique SQL sont connectées à un Lakehouse et sont managées par le processus de mise à jour Git par défaut. Le principe est que les données ne sont pas suivies dans Git ; seules les métadonnées sont suivies.
Représentation Git
Les informations de lakehouse suivantes sont sérialisées et suivies dans un espace de travail connecté à Git :
- Nom d’affichage
- Description
- Guid logique
Remarque
L’identifiant logique suivi est un identifiant inter-espace de travail généré automatiquement qui représente un élément et sa représentation de contrôle de code source.
Important
Seul l’artefact de conteneur Lakehouse est suivi dans Git dans l’expérience actuelle. Les tables (Delta et non Delta) et les dossiers dans la section Fichiers ne sont pas suivis ni versionnés dans Git.
Fonctionnalités d’intégration Git du Lakehouse
Les fonctionnalités suivantes sont disponibles :
- Sérialisation des métadonnées d’objet Lakehouse vers une représentation JSON dans Git.
- Appliquez les modifications directement ou utilisez une demande de tirage (pull request) pour contrôler les modifications apportées aux espaces de travail et branches en amont ou en aval.
- Le renommage des lakehouses fait l’objet d’un suivi dans Git. La mise à jour d’un lakehouse renommé entraîne également le renommage du modèle de données sémantique par défaut et du point de terminaison SQL Analytics.
- Aucune action n’est appliquée aux métadonnées de tables et de dossiers, et les données de ces éléments sont toujours conservées.
- Les métadonnées de raccourcis OneLake sont conservées dans git.
Fonctionnalités d’intégration Git des raccourcis OneLake
- Les définitions de raccourcis dans la section Tables et Fichiers sont stockées dans un fichier nommé
shortcuts.metadata.json
sous le dossier lakehouse dans git. - Les opérations suivantes sont prises en charge et suivies automatiquement : ajout, suppression et mises à jour de raccourcis.
- Les opérations peuvent être effectuées directement dans l’interface utilisateur Fabric ou dans le référentiel Git en modifiant le fichier
shortcuts.metadata.json
. - Les raccourcis avec des cibles internes (Raccourcis OneLake) sont automatiquement mis à jour pendant la synchronisation git. Pour que le raccourci soit valide, ces références doivent être des cibles valides dans l’espace de travail. Si les cibles ne sont pas valides pour les raccourcis définis dans la section des tables Lakehouse, ces raccourcis sont déplacés dans la section
Unidentified
jusqu'à ce que les références soient résolues.
Important
Soyez prudent lors de la modification des propriétés de raccourci OneLake directement dans le fichier shortcuts.metadata.json
. Les modifications incorrectes apportées aux propriétés, en particulier les GUID, peuvent rendre le raccourci OneLake non valide lorsque les mises à jour sont appliquées à l’espace de travail.
Important
Une mise à jour de git remplace l’état des raccourcis dans l’espace de travail. Tous les raccourcis de l’espace de travail sont créés, mis à jour ou supprimés en fonction de l’état entrant de Git.
Lakehouse dans les pipelines de déploiement
Le Lakehouse est pris en charge dans les pipelines de déploiement de la gestion du cycle de vie de Microsoft Fabric. Il applique les bonnes pratiques de segmentation de l’environnement.
Fonctionnalités d’intégration des pipelines de déploiement du Lakehouse :
Déploiement dans des espaces de travail de développement, de test et de production.
Lakehouse peut être supprimé comme objet dépendant lors du déploiement. Le mappage de différents lakehouses dans le contexte des pipelines de déploiement est également pris en charge.
Si rien n’est spécifié lors de la configuration du pipeline de déploiement, un objet Lakehouse vide portant le même nom est créé dans l’espace de travail cible. Les notebooks et les définitions de travaux Spark sont remappés pour référencer le nouvel objet Lakehouse dans le nouvel espace de travail.
Si la dépendance du Lakehouse est configurée pour référencer un autre Lakehouse durant le processus de configuration des pipelines de déploiement, tel que le Lakehouse en amont, un objet Lakehouse vide portant le même nom est toujours créé dans l’espace de travail cible, mais les références aux notebooks et aux définitions de travaux Spark sont conservées dans un autre Lakehouse comme demandé.
Les points de terminaison SQL Analytics et les modèles sémantiques sont provisionnés dans le cadre du déploiement du Lakehouse.
Aucun objet contenu dans le Lakehouse n’est remplacé.
Les renommages du Lakehouse peuvent être synchronisés entre tous les espaces de travail dans un contexte de pipeline de déploiement.
Raccourcis OneLake dans les pipelines de déploiement
- Les définitions de raccourcis sont synchronisées entre les étapes des pipelines de déploiement.
- Les raccourcis avec des cibles externes (ADLS Gen2, S3, etc.) sont identiques à toutes les étapes après le déploiement.
- Les raccourcis avec des cibles internes (Raccourcis OneLake) dans le même espace de travail sont automatiquement remappés à travers les étapes. Les raccourcis qui ciblent l’entrepôt de données et les modèles sémantiques ne sont pas remappés pendant le déploiement. Les tables, dossiers et fichiers ne sont pas créés dans l’espace de travail cible. Pour que le raccourci soit valide, ces références doivent être créées dans l’espace de travail cible après le déploiement.
- Dans le scénario où le même raccourci doit cibler différents emplacements sur différentes étapes. Par exemple, dans Développement, pointez vers un dossier spécifique dans Amazon S3 et dans Production un autre dossier dans ADLS Gen2. Après le déploiement, mettez à jour la définition de raccourci OneLake dans Lakehouse ou directement à l’aide des API OneLake.
Important
Le déploiement remplacera l’état des raccourcis dans l’espace de travail cible. Tous les raccourcis de l'entrepôt de données cible sont mis à jour ou supprimés en fonction de l'état dans l'entrepôt de données source. De nouveaux raccourcis sont créés dans le "lakehouse" cible. Cliquez toujours sur « Passer en revue les modifications » pour comprendre les modifications qui seront déployées entre les espaces de travail source et cible.