Capturer des changements de données avec une évolution de schéma depuis Azure SQL Database vers un récepteur Delta à l’aide d’une ressource de capture des changements de données
S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics
Conseil
Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !
Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure SQL Database et les ajoute à Delta Lake dans Azure Data Lake Storage Gen2 en temps réel. Cette activité présente la prise en charge de l’évolution de schéma à l’aide d’une ressource CDC entre la source et le récepteur.
Dans cet article, vous apprendrez comment :
- Créez une ressource CDC.
- Apportez des modifications dynamiques au schéma de la table source.
- Validez les modifications de schéma sur le récepteur Delta cible.
Vous pouvez modifier et développer le modèle de configuration présenté dans cet article.
Prérequis
Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :
- Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
- Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
- Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.
Créer un artefact CDC
Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).
Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).
Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.
Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.
Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez Azure SQL Database.
Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.
Après avoir sélectionné un service lié, vous êtes invité à sélectionner les tables sources. Utilisez les cases à cocher pour sélectionner les tables sources, puis sélectionnez la valeur Colonne incrémentielle à l’aide de la liste déroulante.
Le volet répertorie uniquement les tables contenant des types de données de colonnes incrémentielles pris en charge.
Remarque
Pour activer la CDC avec l’évolution de schéma dans une source Azure SQL Database, choisissez des tables basées sur des colonnes en filigrane plutôt que sur des tables activées pour la CDC SQL native.
Après avoir sélectionné les tables sources, sélectionnez Continuer pour définir votre cible de données.
Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Delta.
Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.
Sélectionnez votre dossier de données cible. Vous pouvez utiliser au choix :
- Le bouton Parcourir sous Chemin d’accès de base cible, qui vous permet de remplir automatiquement le chemin d’accès de navigation pour toutes les nouvelles tables sélectionnées pour une source.
- Le bouton Parcourir à l’extérieur pour sélectionner individuellement le chemin du dossier.
Après avoir sélectionné le chemin d’accès d’un dossier, sélectionnez le bouton Continuer.
Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.
Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.
Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.
Remarque
L’évolution de schéma fonctionne uniquement lorsque le bouton Mappage automatique est activé. Pour savoir comment modifier des mappages de colonnes ou inclure des transformations, consultez Capturer des données modifiées avec une ressource de capture des changements de données.
Cliquez sur le lien Clés, puis sélectionner la colonne Clés à utiliser pour suivre les opérations de suppression.
Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.
Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.
Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.
Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.
Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.
Remarque
Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.
Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.
Maintenant que votre capture des changements de données est en cours d’exécution, vous pouvez :
Utilisez la page de surveillance pour voir le nombre de modifications (insertions, mises à jour ou suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.
Vérifiez que les données modifiées sont arrivées dans Delta Lake stocké dans Azure Data Lake Storage Gen2, au format Delta.
Vérifiez le schéma des données modifiées qui sont arrivées.
Apporter des modifications dynamiques au niveau du schéma aux tables sources
Ajoutez une colonne PersonalEmail à la table source à l’aide d’une instruction T-SQL
ALTER TABLE
, comme illustré dans l’exemple suivant.Vérifiez que la nouvelle colonne PersonalEmail apparaît dans la table existante.
Valider les modifications de schéma sur le récepteur Delta
Vérifiez que la nouvelle colonne PersonalEmail s’affiche dans le récepteur Delta. Vous savez maintenant que les données modifiées avec les modifications de schéma sont arrivées à la cible.