Partager via


Capturer des changements de données avec une évolution de schéma depuis Azure SQL Database vers un récepteur Delta à l’aide d’une ressource de capture des changements de données

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure SQL Database et les ajoute à Delta Lake dans Azure Data Lake Storage Gen2 en temps réel. Cette activité présente la prise en charge de l’évolution de schéma à l’aide d’une ressource CDC entre la source et le récepteur.

Dans cet article, vous apprendrez comment :

  • Créez une ressource CDC.
  • Apportez des modifications dynamiques au schéma de la table source.
  • Validez les modifications de schéma sur le récepteur Delta cible.

Vous pouvez modifier et développer le modèle de configuration présenté dans cet article.

Prérequis

Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :

  • Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
  • Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
  • Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.

Créer un artefact CDC

  1. Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).

    Capture d’écran montrant un nouvel artefact de niveau supérieur pour la capture des changements de données sur le volet Ressources de la fabrique.

  2. Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).

    Capture d’écran montrant le bouton des actions de capture des changements de données qui s’affiche sur le nouvel artefact de niveau supérieur.

  3. Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.

    Capture d’écran montrant une liste d’actions de capture des changements de données.

  4. Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.

    Capture d’écran montrant la zone de texte permettant de mettre à jour le nom de la ressource.

  5. Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez Azure SQL Database.

    Capture d’écran montrant le menu volant du processus guidé avec les options de source dans un menu déroulant.

  6. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Capture d’écran montrant la zone permettant de choisir ou de créer un service lié.

  7. Après avoir sélectionné un service lié, vous êtes invité à sélectionner les tables sources. Utilisez les cases à cocher pour sélectionner les tables sources, puis sélectionnez la valeur Colonne incrémentielle à l’aide de la liste déroulante.

    Capture d’écran montrant la sélection d’une table source et d’une colonne incrémentielle.

    Le volet répertorie uniquement les tables contenant des types de données de colonnes incrémentielles pris en charge.

    Remarque

    Pour activer la CDC avec l’évolution de schéma dans une source Azure SQL Database, choisissez des tables basées sur des colonnes en filigrane plutôt que sur des tables activées pour la CDC SQL native.

  8. Après avoir sélectionné les tables sources, sélectionnez Continuer pour définir votre cible de données.

    Capture d’écran du bouton Continuer, dans le processus guidé, pour procéder à la sélection d’une cible de données.

  9. Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Delta.

    Capture d’écran montrant un menu déroulant de tous les types de cibles de données.

  10. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Capture d’écran de la zone permettant de choisir ou de créer un service lié pour votre cible de données.

  11. Sélectionnez votre dossier de données cible. Vous pouvez utiliser au choix :

    • Le bouton Parcourir sous Chemin d’accès de base cible, qui vous permet de remplir automatiquement le chemin d’accès de navigation pour toutes les nouvelles tables sélectionnées pour une source.
    • Le bouton Parcourir à l’extérieur pour sélectionner individuellement le chemin du dossier.

    Capture d’écran d’une icône de dossier permettant de rechercher le chemin à un dossier.

  12. Après avoir sélectionné le chemin d’accès d’un dossier, sélectionnez le bouton Continuer.

    Capture d’écran du bouton Continuer, dans le processus guidé, pour passer à l’étape suivante.

  13. Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.

    Capture d’écran du studio de capture des changements de données.

    Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.

    Capture d’écran du mappage entre source et cible dans le studio de capture des changements de données.

  14. Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.

    Capture d’écran montrant le bouton de mappage automatique activé.

    Remarque

    L’évolution de schéma fonctionne uniquement lorsque le bouton Mappage automatique est activé. Pour savoir comment modifier des mappages de colonnes ou inclure des transformations, consultez Capturer des données modifiées avec une ressource de capture des changements de données.

  15. Cliquez sur le lien Clés, puis sélectionner la colonne Clés à utiliser pour suivre les opérations de suppression.

    Capture d’écran du lien permettant d’activer la sélection de la colonne Clés.

    Capture d’écran de la sélection d’une colonne Clés de la source sélectionnée.

  16. Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.

    Capture d’écran du bouton Définir la latence en haut du canevas.

  17. Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.

    Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.

    Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.

    Capture d’écran montrant les options de définition de la latence.

  18. Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.

    Capture d’écran du bouton Publier en haut du canevas.

    Remarque

    Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.

  19. Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.

    Capture d’écran du bouton Démarrer en haut du canevas.

Maintenant que votre capture des changements de données est en cours d’exécution, vous pouvez :

  • Utilisez la page de surveillance pour voir le nombre de modifications (insertions, mises à jour ou suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.

    Capture d’écran de la page d’analyse d’une capture des changements de données sélectionnée.

    Capture d’écran de la page de surveillance montrant un affichage détaillé pour une capture des changements de données sélectionnée.

  • Vérifiez que les données modifiées sont arrivées dans Delta Lake stocké dans Azure Data Lake Storage Gen2, au format Delta.

    Capture d’écran d’un dossier Delta cible.

  • Vérifiez le schéma des données modifiées qui sont arrivées.

    Capture d’écran d’un fichier Delta.

Apporter des modifications dynamiques au niveau du schéma aux tables sources

  1. Ajoutez une colonne PersonalEmail à la table source à l’aide d’une instruction T-SQL ALTER TABLE, comme illustré dans l’exemple suivant.

    Capture d’écran de la commande ALTER dans Azure Data Studio.

  2. Vérifiez que la nouvelle colonne PersonalEmail apparaît dans la table existante.

    Capture d’écran du nouveau format de la table avec la colonne d’e-mail personnel ajoutée.

Valider les modifications de schéma sur le récepteur Delta

Vérifiez que la nouvelle colonne PersonalEmail s’affiche dans le récepteur Delta. Vous savez maintenant que les données modifiées avec les modifications de schéma sont arrivées à la cible.

Capture d’écran d’un fichier Delta avec une modification de schéma.