Partager via


Tutoriel Lakehouse : ingérer des données dans le lakehouse

Dans ce tutoriel, vous allez ingérer davantage de tables de faits et de dimensions à partir de Wide World Importers (WWI) dans le lakehouse.

Prérequis

  • Si vous n’avez pas de lakehouse, vous devez en créer un.

Ingérer des données

Dans cette section, vous allez utiliser l’activité Copier des données du pipeline Data Factory pour ingérer des exemples de données d’un compte de stockage Azure vers la section Fichiers du lakehouse que vous avez créé précédemment.

  1. Sélectionnez Espaces de travail dans le volet de navigation gauche, puis votre nouvel espace de travail dans le menu Espaces de travail. La vue Éléments de votre espace de travail s’affiche.

  2. Depuis l’élément de menu +Nouveau du ruban de l’espace de travail, sélectionnez Pipeline de données.

    Capture d’écran montrant comment créer un pipeline de données.

  3. Dans la boîte de dialogue Nouveau pipeline, spécifiez le nom IngestDataFromSourceToLakehouse, puis sélectionnez Créer. Un pipeline de fabrique de données est créé et ouvert.

  4. Ensuite, configurez une connexion HTTP pour importer les exemples de données World Wide Importers dans le lakehouse. Dans la liste des Nouvelles sources, sélectionnez Afficher plus, recherchez HTTP et sélectionnez-le.

    Capture d’écran montrant où sélectionner la source HTTP.

  5. Dans la fenêtre Se connecter à la source de données, entrez les détails du tableau ci-dessous, puis sélectionnez Suivant.

    Propriété Valeur
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Connexion Créer une connexion
    Nom de la connexion wwisampledata
    Passerelle de données Aucun(e)
    Type d'authentification Anonyme

    Capture d’écran montrant les paramètres pour configurer la connexion HTTP.

  6. À l’étape suivante, activez la copie binaire et choisissez ZipDeflate (.zip) comme Type de compression, car la source est un fichier .zip. Conservez les valeurs par défaut des autres champs, puis cliquez sur Suivant.

    Capture d’écran montrant comment choisir un type de compression.

  7. Dans la fenêtre Se connecter à la destination des données, spécifiez Fichiers comme Dossier racine, puis sélectionnez Suivant. Cela écrit les données dans la section Fichiers du lakehouse.

    Capture d’écran montrant les paramètres de connexion de destination du lakehouse.

  8. Choisissez Binaire comme Format de fichier pour la destination. Sélectionnez Suivant, puis Enregistrer + exécuter. Vous pouvez planifier des pipelines pour actualiser régulièrement les données. Dans ce tutoriel, nous n’exécutons le pipeline qu’une seule fois. Le processus de copie de données prend environ 10-15 minutes.

    Capture d’écran montrant le format de fichier de destination.

  9. Vous pouvez surveiller l’exécution et l’activité du pipeline sous l’onglet Sortie. Vous pouvez également afficher des informations détaillées sur le transfert de données en sélectionnant l’icône de lunettes en regard du nom du pipeline, qui apparaît lorsque vous pointez sur le nom.

    Capture d’écran montrant l’état de l’activité de pipeline de copie.

  10. Après l’exécution réussie du pipeline, accédez à votre lakehouse (wwilakehouse) et ouvrez l’explorateur pour afficher les données importées.

    Capture d’écran montrant comment accéder au lakehouse.

  11. Vérifiez que le dossier WideWorldImportersDW est présent dans la vue Explorateur et contient des données pour toutes les tables.

    Capture d’écran montrant que la source de données est copiée dans l’explorateur de lakehouse.

  12. Les données sont créées dans la section Fichiers de l’explorateur de lakehouse. Un nouveau dossier avec GUID contient toutes les données nécessaires. Renommez le GUID wwi-raw-data.

Pour charger des données incrémentielles dans un lakehouse, voir Charger de manière incrémentielle des données de Data Warehouse vers Lakehouse.

Étape suivante