Capturer des données modifiées d’Azure Data Lake Storage Gen2 vers Azure SQL Database à l’aide d’une ressource de capture des changements de données
S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics
Conseil
Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !
Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure Data Lake Storage Gen2 et les ajoute à Azure SQL Database en temps réel.
Dans cet article, vous apprendrez comment :
- Créez une ressource CDC.
- Surveillez l’activité CDC.
Vous pouvez modifier et développer le modèle de configuration contenu dans cet article.
Prérequis
Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :
- Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
- Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
- Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.
Créer un artefact CDC
Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).
Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).
Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.
Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.
Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez DelimitedText.
Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.
Utilisez la zone Paramètres de la source pour définir de manière facultative des configurations avancées de la source, telles que des délimiteurs de colonnes et de lignes.
Si vous ne modifiez pas manuellement ces paramètres de source, ils sont définis sur les valeurs par défaut.
Utilisez le bouton Parcourir pour sélectionner votre dossier de données sources.
Après avoir sélectionné un chemin de dossier, sélectionnez Continuer pour définir votre cible de données.
Vous pouvez choisir d’ajouter plusieurs dossiers sources en utilisant le bouton plus (+). Les autres sources doivent également utiliser le service lié que vous avez déjà sélectionné.
Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Azure SQL Database.
Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.
Pour Tables cibles, vous pouvez créer une table cible ou en sélectionner une existante :
Pour créer une table cible, sélectionnez l’onglet Nouvelles entités, puis sélectionnez Modifier les nouvelles tables.
Pour sélectionner une table existante, sélectionnez l’onglet Entités existantes, puis utilisez la case à cocher pour choisir une table. Utilisez le bouton Aperçu pour afficher votre table de données.
Si les tables existantes sur la cible ont des noms correspondants, elles sont sélectionnées par défaut sous Entités existantes. Si ce n’est pas le cas, des tables portant des noms correspondants sont créées sous Nouvelles entités. En outre, vous pouvez modifier de nouvelles tables à l’aide du bouton Modifier de nouvelles tables.
Vous pouvez utiliser les cases à cocher pour choisir plusieurs tables cibles dans votre base de données SQL. Après avoir terminé de choisir les tables cibles, sélectionnez Continuer.
Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.
Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.
Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.
Si vous souhaitez utiliser le mappage automatique et ne pas modifier les mappages de colonnes, passez directement à l’étape 18.
Si vous souhaitez activer les mappages de colonnes, sélectionnez les mappages et désactivez le bouton de mappage automatique. Sélectionnez ensuite le bouton Mappages de colonnes pour afficher les mappages.
Vous pouvez revenir au mappage automatique à tout moment en activant le bouton de mappage automatique.
Affichez vos mappages de colonnes. Utilisez les listes déroulantes afin de modifier vos mappages de colonnes pour Méthode de mappage, Colonne source et Colonne cible.
À partir de cette page, vous pouvez :
- Ajoutez des mappages de colonnes supplémentaires à l’aide du bouton Nouveau mappage. Utilisez les listes déroulantes afin de sélectionner Méthode de mappage, Colonne source et Colonne cible.
- Sélectionnez la colonne Clés si vous souhaitez suivre l’opération de suppression pour les types de récepteurs pris en charge.
- Sélectionnez le bouton Actualiser sous Aperçu des données pour visualiser l’aspect des données sur la cible.
Lorsque votre mappage est terminé, sélectionnez la flèche pour revenir au canevas CDC principal.
Vous pouvez ajouter des mappages entre source et cible supplémentaires dans un artefact CDC. Utilisez le bouton Modifier pour ajouter des sources et cibles de données. Sélectionnez ensuite Nouveau mappage et utilisez les listes déroulantes pour définir une source et une cible supplémentaires. Vous pouvez activer ou désactiver le mappage automatique pour chacun de ces mappages, indépendamment.
Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.
Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.
Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.
Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.
Remarque
Si la prise en charge est étendue à l’intégration de données en diffusion en continu (sources de données Azure Event Hubs et Kafka), la latence est définie par défaut sur Temps réel.
Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.
Remarque
Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.
Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.
Surveiller votre capture des changements de données
Ouvrez le volet Surveiller à l’aide de l’une des méthodes suivantes :
Sélectionnez Capture des changements de données (préversion) pour afficher vos ressources CDC.
Le volet Capture des modifications de données affiche les informations Source, Cible, État et Dernier traitement relatives à votre capture des changements de données.
Sélectionnez le nom de votre ressource CDC pour afficher plus d’informations. Vous pouvez voir le nombre de modifications (insertions, mises à jour, suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.
Si vous définissez plusieurs mappages dans votre capture des changements de données, chaque mappage s’affiche dans une couleur différente. Cliquez sur la barre pour afficher des détails spécifiques de chaque mappage, ou utilisez les informations de diagnostics en bas du volet.