Exercice - Utiliser l’activité Copy de fabrique de données
Une fois la création de l’instance de Data Factory terminée, vous pouvez accéder à la ressource dans laquelle vous pouvez commencer à créer vos pipelines de données en cliquant sur le bouton Auteur et moniteur. L’écran suivant s’affiche :
La première étape de votre pipeline consiste à créer une activité Copy qui copie les données entre la source et la destination à l’aide des étapes suivantes.
Ouvrez le canevas de création en cliquant sur l'icône de crayon dans la barre latérale gauche ou sur le bouton « Créer un pipeline » pour ouvrir le canevas de création.
Créez le pipeline. Cliquez sur le bouton + dans le volet Ressources de la fabrique, puis sélectionnez Pipeline.
Ajoutez une activité Copy. Dans le volet Activités, ouvrez l’accordéon Déplacer et transformer, puis faites glisser l’activité Copie de données vers le canevas.
Une fois l’activité Copy ajoutée, vous commencez à définir les données sources
Dans l’onglet Source des paramètres de l’activité Copy, cliquez sur + Nouveau pour sélectionner une source de données.
Par exemple, dans la liste des magasins de données, sélectionnez la vignette Amazon S3 , puis cliquez sur Continuer
Dans la liste des formats de fichier, sélectionnez la vignette DelimitedText, puis cliquez sur Continuer
Dans la fenêtre Définir les propriétés, attribuez un nom compréhensible à votre jeu de données, puis cliquez sur la liste déroulante Service lié. Si vous n’avez pas créé votre service lié S3, sélectionnez Nouveau.
Dans le volet Configuration du service lié S3, spécifiez votre clé d’accès S3 et votre clé secrète. Le service Data Factory chiffre les informations d’identification avec des certificats gérés par Microsoft. Pour plus d'informations, consultez Considérations sur la sécurité du déplacement des données. Pour vérifier que vos informations d’identification sont valides, cliquez sur Tester la connexion. Une fois que vous avez fini, cliquez sur Créer.
Une fois que vous avez créé et sélectionné le service lié, spécifiez le reste de vos paramètres de jeu de données. Ces paramètres spécifient comment et où dans votre connexion vous souhaitez extraire les données. Cliquez sur Terminer une fois terminé.
Pour vérifier que votre jeu de données est correctement configuré, cliquez sur Aperçu des données sous l’onglet Source de l’activité Copy pour obtenir un petit instantané de vos données.
Une fois les données sources définies, vous devez définir le récepteur dans lequel les données seront chargées. Dans cet exemple, le récepteur est Azure Data Lake Storage Gen2 en effectuant les étapes suivantes :
Dans l’onglet Récepteur, cliquez + Nouveau
Sélectionnez la vignette Azure Data Lake Storage Gen2, puis cliquez sur Continue
Dans le panneau Définir les propriétés, attribuez un nom compréhensible à votre jeu de données, puis cliquez sur la liste déroulante Service lié. Si vous n’avez pas créé votre service lié ADLS, sélectionnez Nouveau.
Dans le volet Configuration du service lié ADLS, sélectionnez votre méthode d’authentification et saisissez vos informations d’identification. Dans l’exemple ci-dessous, une clé de compte et un compte de stockage sélectionné dans la liste déroulante.
Une fois que vous avez configuré votre service lié, entrez dans la configuration du jeu de données ADLS. Cliquez sur Terminer une fois terminé.
À ce stade, vous avez entièrement configuré votre activité Copy.
Pour le tester, cliquez sur le bouton Déboguer en haut de la zone de création de pipeline. Cette opération démarre une exécution de débogage de pipeline.
Pour surveiller la progression du débogage de pipeline, cliquez sur l’onglet Sortie du pipeline
Pour afficher une description plus détaillée de la sortie de l’activité, cliquez sur l’icône lunettes. Cela ouvre l’écran de surveillance de copie qui fournit des métriques utiles, telles que les statistiques de lecture/écriture de données, le débit et les statistiques de durée approfondies.
Pour vérifier que la copie fonctionne comme prévu, ouvrez votre compte de stockage ADLS gen2 et vérifiez que votre fichier a été écrit comme prévu