Partager via


Copier les fichiers nouveaux et modifiés selon LastModifiedDate à l’aide de l’outil Copier des données de façon incrémentielle

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans ce didacticiel, vous utilisez le portail Azure pour créer une fabrique de données. Vous vous servez ensuite de l’outil Copier des données pour créer un pipeline qui copie uniquement et de façon incrémentielle les nouveaux fichiers et les fichiers modifiés du Stockage Blob Azure vers le Stockage Blob Azure. Il utilise LastModifiedDate pour déterminer les fichiers à copier.

Une fois que vous avez suivi les différentes étapes, Azure Data Factory analyse tous les fichiers du magasin source, applique le filtre de fichiers par LastModifiedDateet copie uniquement les fichiers qui ont été créés ou mis à jour depuis la dernière fois dans le magasin de destination. Sachez que, si Data Factory analyse un grand nombre de fichiers, les durées n’en restent pas moins longues. L’analyse des fichiers prend beaucoup de temps, même lorsque la quantité de données copiées est réduite.

Notes

Si vous débutez avec Data Factory, consultez Présentation d’Azure Data Factory.

Dans ce tutoriel, vous allez effectuer les tâches suivantes :

  • Créer une fabrique de données.
  • Utiliser l’outil Copier les données pour créer un pipeline.
  • Surveiller les exécutions de pipeline et d’activité.

Prérequis

  • Abonnement Azure : Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
  • Compte Stockage Azure : Utilisez le Stockage Blob comme magasin de données source et récepteur. Si vous n’avez pas de compte stockage Azure, suivez les instructions indiquées dans Créer un compte de stockage.

Créer deux conteneurs dans le stockage d’objets blob

Préparez votre Stockage Blob pour le tutoriel :

  1. Créez un conteneur nommé source. Vous pouvez utiliser différents outils pour effectuer cette tâche, comme l’Explorateur Stockage Azure.

  2. Créez un conteneur nommé destination.

Créer une fabrique de données

  1. Dans le volet de gauche, sélectionnez Créer une ressource. Sélectionnez Intégration>Data Factory :

    Sélection de Data Factory

  2. Sur la page Nouvelle fabrique de données, entrez ADFTutorialDataFactory dans le champ Nom.

    Le nom de votre fabrique de données doit être un nom global unique. Il est possible que vous receviez ce message d’erreur :

    Nouveau message d’erreur de la fabrique de données pour le nom dupliqué.

    Si vous recevez un message d’erreur concernant la valeur du nom, saisissez un autre nom pour la fabrique de données. Par exemple, utilisez le nom votrenomADFTutorialDataFactory. Pour savoir comment nommer les artefacts Data Factory, voir Data Factory - Règles d’affectation des noms.

  3. Sous Abonnement, sélectionnez l’abonnement Azure dans lequel vous allez créer la fabrique de données.

  4. Sous Groupe de ressources, vous avez deux possibilités :

    • Sélectionnez Utiliser existant, puis sélectionnez un groupe de ressources existant dans la liste.

    • Sélectionnez Créer, puis entrez un nom pour le groupe de ressources.

    Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.

  5. Sous Version, sélectionnez V2.

  6. Sous Emplacement, sélectionnez l’emplacement de la fabrique de données. Seuls les emplacements pris en charge apparaissent dans la liste. Les magasins de données (par exemple, Stockage Azure et SQL Database) et les services de calcul (par exemple, Azure HDInsight) utilisés par votre fabrique de données peuvent se trouver dans d’autres emplacements et régions.

  7. Sélectionnez Create (Créer).

  8. Une fois la fabrique de données créée, la page d’accueil de Data Factory apparaît.

  9. Pour ouvrir l’interface utilisateur d’Azure Data Factory dans un onglet séparé, dans la vignette Ouvrir Azure Data Factory Studio, sélectionnez Ouvrir :

    Page d’accueil d’Azure Data Factory, avec la mosaïque Ouvrir Azure Data Factory Studio.

Utiliser l’outil Copier les données pour créer un pipeline

  1. Sur la page d’accueil d’Azure Data Factory, sélectionnez le titre Ingérer pour lancer l’outil Copier des données :

    Capture d’écran montrant la page d’accueil ADF.

  2. Dans la page Propriétés, effectuez les opérations suivantes :

    1. Sous Type de tâche, sélectionnez Tâche de copie intégrée.

    2. Sous Cadence des tâches ou calendrier des tâches, sélectionnez Fenêtre bascule.

    3. Sous Périodicité, entrez 15 Minute(s) .

    4. Sélectionnez Suivant.

    Page de propriétés Copier des données

  3. Sur la page Magasin de données source, procédez de la façon suivante :

    1. Sélectionnez + Nouvelle connexion pour ajouter une connexion.

    2. Sélectionnez Stockage Blob Azure dans la galerie, puis Continuer :

      Sélection du Stockage Blob Azure

    3. Dans la page Nouvelle connexion (Stockage Blob Azure) , sélectionnez votre abonnement Azure dans la liste Abonnement Azure et votre compte de stockage dans la liste Nom du compte de stockage. Testez la connexion, puis sélectionnez Créer.

    4. Sélectionnez la nouvelle connexion dans le bloc Connexion.

    5. Dans la section Fichier ou dossier, sélectionnez Parcourir, puis le dossier source, puis OK.

    6. Sous Comportement de chargement de fichier, sélectionnez Chargement incrémentiel : LastModifiedDate, puis Copie binaire.

    7. Sélectionnez Suivant.

    Capture d’écran montrant la page Magasin de données source.

  4. Sur la page Magasin de données de destination, procédez comme suit :

    1. Sélectionnez la connexion AzureBlobStorage que vous avez créée. Il s’agit du même compte de stockage que la banque de données source.

    2. Dans la section Chemin d’accès du dossier, recherchez et sélectionnez le dossier de destination, puis sélectionnez OK.

    3. Sélectionnez Suivant.

    Capture d’écran montrant la page Magasin de données de destination.

  5. Sur la page Paramètres, sous Nom de la tâche, saisissez DeltaCopyFromBlobPipeline, puis sélectionnez Suivant. Data Factory crée un pipeline portant le nom de tâche spécifié.

    Capture d’écran montrant la page Paramètres.

  6. Sur la page Résumé, vérifiez les paramètres, puis sélectionnez Suivant.

    Page de résumé

  7. Sur la page Déploiement, sélectionnez Analyse pour analyser le pipeline (tâche).

    Page Déploiement

  8. Notez que l’onglet Surveiller sur la gauche est sélectionné automatiquement. L’application bascule vers l’onglet Surveiller. Vous voyez l’état du pipeline. Sélectionnez Actualiser pour actualiser la liste. Sélectionnez le lien qui se trouve sous Nom du pipeline pour afficher les détails de l’exécution d’activité ou réexécuter le pipeline.

    Actualisation de la liste et affichage des détails de l’exécution d’activité

  9. Il n’y a qu’une seule activité (l’activité de copie) dans le pipeline ; vous ne voyez donc qu’une seule entrée. Pour obtenir des détails sur l’opération de copie, dans la page Exécutions d’activités, sélectionnez le lien Détails (icône en forme de lunettes) dans la colonne Nom de l’activité. Pour plus d’informations sur les propriétés, consultez Vue d’ensemble de l’activité de copie.

    Activité de copie dans le pipeline

    Étant donné qu’il n’existe aucun fichier dans le conteneur source de votre compte de Stockage Blob, vous ne trouverez aucun fichier copié dans le conteneur de destination du compte :

    Aucun fichier dans le conteneur source ou le conteneur de destination

  10. Créez un fichier texte vide et nommez-le file1.txt. Chargez ce fichier texte dans le conteneur source de votre compte de stockage. Vous pouvez utiliser différents outils pour effectuer ces tâches, comme l’Explorateur Stockage Azure.

    Création du fichier file1.txt et chargement dans le conteneur source

  11. Pour revenir à la vue Exécutions de pipelines, dans la page Exécutions d’activités, dans le menu de navigation, sélectionnez le lien Toutes les exécutions de pipelines, puis attendez que le même pipeline soit à nouveau déclenché automatiquement.

  12. Une fois la deuxième exécution du pipeline terminée, suivez à nouveau la procédure précédente pour consulter les détails de l’exécution d’activité.

    Vous constaterez qu’un fichier (file1.txt) a été copié du conteneur source vers le conteneur de destination de votre compte de Stockage Blob :

    file1.txt copié du conteneur source vers le conteneur de destination

  13. Créez un autre fichier texte vide et nommez-le file2.txt. Chargez ce fichier texte dans le conteneur source de votre compte de Stockage Blob.

  14. Répétez les étapes 11 et 12 pour le deuxième fichier texte. Vous constaterez que seul le nouveau fichier (file2.txt) a été copié du conteneur source vers le conteneur de destination de votre compte de stockage lors de cette exécution de pipeline.

    Vous pourrez également vérifier qu’un seul fichier a été copié en analysant les fichiers avec l’Explorateur Stockage Azure :

    Analyse des fichiers avec l’Explorateur Stockage Azure

Passez au tutoriel suivant pour apprendre à transformer les données avec un cluster Apache Spark sur Azure :