Partager via


Capturer des données modifiées d’Azure Data Lake Storage Gen2 vers Azure SQL Database à l’aide d’une ressource de capture des changements de données

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure Data Lake Storage Gen2 et les ajoute à Azure SQL Database en temps réel.

Dans cet article, vous apprendrez comment :

  • Créez une ressource CDC.
  • Surveillez l’activité CDC.

Vous pouvez modifier et développer le modèle de configuration contenu dans cet article.

Prérequis

Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :

  • Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
  • Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
  • Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.

Créer un artefact CDC

  1. Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).

    Capture d’écran montrant un nouvel artefact de niveau supérieur pour la capture des changements de données sur le volet Ressources de la fabrique.

  2. Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).

    Capture d’écran montrant le bouton des actions de capture des changements de données qui s’affiche sur le nouvel artefact de niveau supérieur.

  3. Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.

    Capture d’écran montrant une liste d’actions de capture des changements de données.

  4. Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.

    Capture d’écran montrant la zone de texte permettant de mettre à jour le nom de la ressource.

  5. Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez DelimitedText.

    Capture d’écran montrant le menu volant du processus guidé avec les options de source dans un menu déroulant.

  6. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Capture d’écran montrant la zone permettant de choisir ou de créer un service lié.

  7. Utilisez la zone Paramètres de la source pour définir de manière facultative des configurations avancées de la source, telles que des délimiteurs de colonnes et de lignes.

    Capture d’écran des paramètres de source avancés pour définir des délimiteurs.

    Si vous ne modifiez pas manuellement ces paramètres de source, ils sont définis sur les valeurs par défaut.

  8. Utilisez le bouton Parcourir pour sélectionner votre dossier de données sources.

    Capture d’écran d’une icône de dossier permettant de rechercher le chemin à un dossier.

  9. Après avoir sélectionné un chemin de dossier, sélectionnez Continuer pour définir votre cible de données.

    Capture d’écran montrant le bouton Continuer, dans le processus guidé, pour procéder à la sélection des cibles de données.

    Vous pouvez choisir d’ajouter plusieurs dossiers sources en utilisant le bouton plus (+). Les autres sources doivent également utiliser le service lié que vous avez déjà sélectionné.

  10. Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Azure SQL Database.

    Capture d’écran montrant un menu déroulant de tous les types de cibles de données.

  11. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Capture d’écran de la zone permettant de choisir ou de créer un service lié pour votre cible de données.

  12. Pour Tables cibles, vous pouvez créer une table cible ou en sélectionner une existante :

    • Pour créer une table cible, sélectionnez l’onglet Nouvelles entités, puis sélectionnez Modifier les nouvelles tables.

      Capture d’écran de l’onglet permettant de créer des tables pour votre cible.

    • Pour sélectionner une table existante, sélectionnez l’onglet Entités existantes, puis utilisez la case à cocher pour choisir une table. Utilisez le bouton Aperçu pour afficher votre table de données.

      Capture d’écran de l’onglet permettant de choisir des tables pour votre cible.

    Si les tables existantes sur la cible ont des noms correspondants, elles sont sélectionnées par défaut sous Entités existantes. Si ce n’est pas le cas, des tables portant des noms correspondants sont créées sous Nouvelles entités. En outre, vous pouvez modifier de nouvelles tables à l’aide du bouton Modifier de nouvelles tables.

  13. Vous pouvez utiliser les cases à cocher pour choisir plusieurs tables cibles dans votre base de données SQL. Après avoir terminé de choisir les tables cibles, sélectionnez Continuer.

    Capture d’écran du bouton Continuer, dans le processus guidé, pour passer à l’étape suivante.

  14. Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.

    Capture d’écran du studio de capture des changements de données.

    Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.

    Capture d’écran du mappage entre source et cible dans le studio de capture des changements de données.

  15. Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.

    Si vous souhaitez utiliser le mappage automatique et ne pas modifier les mappages de colonnes, passez directement à l’étape 18.

    Capture d’écran montrant le bouton de mappage automatique activé.

    Si vous souhaitez activer les mappages de colonnes, sélectionnez les mappages et désactivez le bouton de mappage automatique. Sélectionnez ensuite le bouton Mappages de colonnes pour afficher les mappages.

    Capture d’écran montrant la sélection des mappages, le bouton de mappage automatique désactivé et le bouton de mappages de colonne.

    Vous pouvez revenir au mappage automatique à tout moment en activant le bouton de mappage automatique.

  16. Affichez vos mappages de colonnes. Utilisez les listes déroulantes afin de modifier vos mappages de colonnes pour Méthode de mappage, Colonne source et Colonne cible.

    Capture d’écran de la page de modification des mappages de colonnes.

    À partir de cette page, vous pouvez :

    • Ajoutez des mappages de colonnes supplémentaires à l’aide du bouton Nouveau mappage. Utilisez les listes déroulantes afin de sélectionner Méthode de mappage, Colonne source et Colonne cible.
    • Sélectionnez la colonne Clés si vous souhaitez suivre l’opération de suppression pour les types de récepteurs pris en charge.
    • Sélectionnez le bouton Actualiser sous Aperçu des données pour visualiser l’aspect des données sur la cible.

    Capture d’écran montrant le bouton permettant d’ajouter des mappages de colonnes, la liste déroulante pour les méthodes de mappage, la colonne Clés et le bouton Actualiser.

  17. Lorsque votre mappage est terminé, sélectionnez la flèche pour revenir au canevas CDC principal.

    Capture d’écran du bouton permettant de revenir à la page de mappage de tables.

  18. Vous pouvez ajouter des mappages entre source et cible supplémentaires dans un artefact CDC. Utilisez le bouton Modifier pour ajouter des sources et cibles de données. Sélectionnez ensuite Nouveau mappage et utilisez les listes déroulantes pour définir une source et une cible supplémentaires. Vous pouvez activer ou désactiver le mappage automatique pour chacun de ces mappages, indépendamment.

    Capture d’écran montrant les boutons permettant d’ajouter de nouvelles sources et de définir un nouveau mappage entre source et cible.

  19. Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.

    Capture d’écran du bouton Définir la latence en haut du canevas.

  20. Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.

    Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.

    Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.

    Capture d’écran montrant les options de définition de la latence.

    Remarque

    Si la prise en charge est étendue à l’intégration de données en diffusion en continu (sources de données Azure Event Hubs et Kafka), la latence est définie par défaut sur Temps réel.

  21. Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.

    Capture d’écran du bouton Publier en haut du canevas.

    Remarque

    Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.

  22. Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.

    Capture d’écran du bouton Démarrer en haut du canevas.

Surveiller votre capture des changements de données

  1. Ouvrez le volet Surveiller à l’aide de l’une des méthodes suivantes :

    • Sélectionnez Surveiller dans le Portail Azure.

      Capture d’écran du bouton Surveiller dans le portail Azure.

    • Sélectionnez l’icône de surveillance dans le concepteur du CDC.

      Capture d’écran de l’icône de surveillance située en haut du canevas CDC.

  2. Sélectionnez Capture des changements de données (préversion) pour afficher vos ressources CDC.

    Capture d’écran du bouton Capture des changements de données.

    Le volet Capture des modifications de données affiche les informations Source, Cible, État et Dernier traitement relatives à votre capture des changements de données.

    Capture d’écran d’une vue d’ensemble de la page de supervision d’une capture des changements de données.

  3. Sélectionnez le nom de votre ressource CDC pour afficher plus d’informations. Vous pouvez voir le nombre de modifications (insertions, mises à jour, suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.

    Capture d’écran de la supervision détaillée d’une capture des changements de données sélectionnée.

    Si vous définissez plusieurs mappages dans votre capture des changements de données, chaque mappage s’affiche dans une couleur différente. Cliquez sur la barre pour afficher des détails spécifiques de chaque mappage, ou utilisez les informations de diagnostics en bas du volet.

    Capture d’écran montrant les informations détaillées de supervision d’une capture des changements de données avec plusieurs mappages entre source et cible.

    Capture d’écran montrant la décomposition détaillée de chaque mappage dans un artefact de capture des changements de données.