Exercice - Utiliser l’activité Copy de fabrique de données

Effectué

Une fois la création de l’instance de Data Factory terminée, vous pouvez accéder à la ressource dans laquelle vous pouvez commencer à créer vos pipelines de données en cliquant sur le bouton Auteur et moniteur. L’écran suivant s’affiche :

Authoring in Azure Data Factory

La première étape de votre pipeline consiste à créer une activité Copy qui copie les données entre la source et la destination à l’aide des étapes suivantes.

  1. Ouvrez le canevas de création en cliquant sur l'icône de crayon dans la barre latérale gauche ou sur le bouton « Créer un pipeline » pour ouvrir le canevas de création.

    Screenshot that shows the Create pipeline option highlighted.

  2. Créez le pipeline. Cliquez sur le bouton + dans le volet Ressources de la fabrique, puis sélectionnez Pipeline.

    Screenshot that shows Factory Resources under the Data Factory tab. The plus symbol is selected, exposing Pipeline, both are highlighted.

  3. Ajoutez une activité Copy. Dans le volet Activités, ouvrez l’accordéon Déplacer et transformer, puis faites glisser l’activité Copie de données vers le canevas.

    Using the Copy Activity

Une fois l’activité Copy ajoutée, vous commencez à définir les données sources

  1. Dans l’onglet Source des paramètres de l’activité Copy, cliquez sur + Nouveau pour sélectionner une source de données.

    Creating as data source

  2. Par exemple, dans la liste des magasins de données, sélectionnez la vignette Amazon S3 , puis cliquez sur Continuer

    Select Amazon S3 as a data source

  3. Dans la liste des formats de fichier, sélectionnez la vignette DelimitedText, puis cliquez sur Continuer

    Screenshot that shows Delimited Text selected in the Select format list.

  4. Dans la fenêtre Définir les propriétés, attribuez un nom compréhensible à votre jeu de données, puis cliquez sur la liste déroulante Service lié. Si vous n’avez pas créé votre service lié S3, sélectionnez Nouveau.

    Screenshot that shows the Set Properties window, with filter highlighted under Linked service.

  5. Dans le volet Configuration du service lié S3, spécifiez votre clé d’accès S3 et votre clé secrète. Le service Data Factory chiffre les informations d’identification avec des certificats gérés par Microsoft. Pour plus d'informations, consultez Considérations sur la sécurité du déplacement des données. Pour vérifier que vos informations d’identification sont valides, cliquez sur Tester la connexion. Une fois que vous avez fini, cliquez sur Créer.

    Setting data source access with keys

  6. Une fois que vous avez créé et sélectionné le service lié, spécifiez le reste de vos paramètres de jeu de données. Ces paramètres spécifient comment et où dans votre connexion vous souhaitez extraire les données. Cliquez sur Terminer une fois terminé.

    Finishing up data source settings

  7. Pour vérifier que votre jeu de données est correctement configuré, cliquez sur Aperçu des données sous l’onglet Source de l’activité Copy pour obtenir un petit instantané de vos données.

    Previewing data

Une fois les données sources définies, vous devez définir le récepteur dans lequel les données seront chargées. Dans cet exemple, le récepteur est Azure Data Lake Storage Gen2 en effectuant les étapes suivantes :

  1. Dans l’onglet Récepteur, cliquez + Nouveau

    Defining a data sink in the Copy Activity

  2. Sélectionnez la vignette Azure Data Lake Storage Gen2, puis cliquez sur Continue

    Defining the dataset

  3. Dans le panneau Définir les propriétés, attribuez un nom compréhensible à votre jeu de données, puis cliquez sur la liste déroulante Service lié. Si vous n’avez pas créé votre service lié ADLS, sélectionnez Nouveau.

    Setting the dataset properties

  4. Dans le volet Configuration du service lié ADLS, sélectionnez votre méthode d’authentification et saisissez vos informations d’identification. Dans l’exemple ci-dessous, une clé de compte et un compte de stockage sélectionné dans la liste déroulante.

    Finalizing the dataset properties

  5. Une fois que vous avez configuré votre service lié, entrez dans la configuration du jeu de données ADLS. Cliquez sur Terminer une fois terminé.

    Finish the dataset properties

À ce stade, vous avez entièrement configuré votre activité Copy.

  1. Pour le tester, cliquez sur le bouton Déboguer en haut de la zone de création de pipeline. Cette opération démarre une exécution de débogage de pipeline.

    Testing the Copy Activity

  2. Pour surveiller la progression du débogage de pipeline, cliquez sur l’onglet Sortie du pipeline

    Monitoring the Copy Activity

  3. Pour afficher une description plus détaillée de la sortie de l’activité, cliquez sur l’icône lunettes. Cela ouvre l’écran de surveillance de copie qui fournit des métriques utiles, telles que les statistiques de lecture/écriture de données, le débit et les statistiques de durée approfondies.

    Viewing the Copy Activity Results

Pour vérifier que la copie fonctionne comme prévu, ouvrez votre compte de stockage ADLS gen2 et vérifiez que votre fichier a été écrit comme prévu