Partager via


Inscrire des données Data Lake Storage Gen1 dans Azure Data Catalog

Dans cet article, vous allez découvrir comment intégrer Azure Data Lake Storage Gen1 à Azure Data Catalog pour rendre vos données détectables au sein d’une organisation en l’intégrant à Data Catalog. Pour plus d’informations sur le catalogage des données, consultez Azure Data Catalog. Pour comprendre les scénarios dans lesquels vous pouvez utiliser Data Catalog, consultez Scénarios courants d’Azure Data Catalog.

Prérequis

Avant de commencer ce didacticiel, vous devez disposer des éléments suivants :

  • Un abonnement Azure. Consultez la page Obtention d’un essai gratuit d’Azure.

  • Activez votre abonnement Azure pour Data Lake Storage Gen1. Consultez les instructions.

  • Un compte Data Lake Storage Gen1. Suivez les instructions de Prise en main d’Azure Data Lake Storage Gen1 avec le portail Azure. Pour ce tutoriel, nous allons créer un compte Data Lake Storage Gen1 appelé datacatalogstore.

    Une fois que vous avez créé le compte, chargez-y un exemple de jeu de données. Pour ce didacticiel, chargeons tous les fichiers .csv sous le dossier AmbulanceData dans le dépôt Git Azure Data Lake. Vous pouvez utiliser différents clients, comme Explorateur de stockage Azure, pour charger des données dans un conteneur d’objets blob.

  • Azure Data Catalog. Votre organisation doit déjà avoir un catalogue de données Azure créé pour votre organisation. Un seul catalogue est autorisé pour chaque organisation.

Inscrire Data Lake Storage Gen1 comme source pour Data Catalog

  1. Accédez à https://azure.microsoft.com/services/data-catalog, puis cliquez sur Prise en main.

  2. Connectez-vous au portail Azure Data Catalog, puis cliquez sur Publier des données.

    Référencer une source de données

  3. Sur la page suivante, cliquez sur Lancer l’application. Ceci télécharge le fichier manifeste d’application sur votre ordinateur. Double-cliquez sur le fichier manifeste pour démarrer l’application.

  4. Sur la page Bienvenue, cliquez sur Connexion, puis entrez vos informations d’identification.

    Écran d’accueil

  5. Dans la page Sélectionner une source de données, sélectionnez Azure Data Lake Store, puis cliquez sur Suivant.

    Sélectionner une source de données

  6. Sur la page suivante, spécifiez le nom du compte Data Lake Storage Gen1 que vous voulez inscrire dans Data Catalog. Laissez les autres options à leur valeur par défaut, puis cliquez sur Connexion.

    Se connecter à une sources de données

  7. La page suivante peut être divisée selon les segments suivants.

    a. La zone Hiérarchie du serveur représente la structure des dossiers du compte Data Lake Storage Gen1. $Root représente la racine du compte Data Lake Storage Gen1 et AmbulanceData représente le dossier créé à la racine du compte Data Lake Storage Gen1.

    b. La zone Objets disponibles répertorie les fichiers et les dossiers présents sous le dossier AmbulanceData.

    c. La zone Objets à référencer répertorie les fichiers et dossiers à référencer dans Azure Data Catalog.

    Capture d’écran de la boîte de dialogue Microsoft Azure Data Catalog - Compte de stockage.

  8. Pour ce didacticiel, vous devez référencer tous les fichiers du répertoire. Pour cela, cliquez sur le bouton (déplacer des objets) pour déplacer tous les fichiers dans la zone Objets à référencer.

    Comme les données sont référencées dans un catalogue de données au niveau de l’organisation, il est recommandé d’ajouter des métadonnées que vous pouvez utiliser ultérieurement pour localiser rapidement les données. Par exemple, vous pouvez ajouter une adresse de messagerie pour le propriétaire des données (par exemple une personne qui charge les données) ou ajouter une étiquette pour identifier les données. La capture d’écran ci-dessous montre une étiquette que nous ajoutons aux données.

    Capture d’écran de la boîte de dialogue Microsoft Azure Data Catalog - Compte de stockage avec l’étiquette ajoutée aux données mise en évidence.

    Cliquez sur S'inscrire.

  9. La capture d’écran suivante montre que les données sont référencées avec succès dans le catalogue de données.

    Référencement terminé

  10. Cliquez sur Afficher le portail pour revenir au portail Data Catalog et vérifiez que vous pouvez maintenant accéder aux données référencées à partir du portail. Pour rechercher les données, vous pouvez utiliser l’étiquette que vous avez utilisée lors du référencement des données.

    Rechercher des données dans le catalogue

  11. Vous pouvez maintenant effectuer des opérations comme ajouter des annotations et de la documentation aux données. Pour plus d’informations, consultez les liens suivants :

Voir aussi