Exemple de configuration pour la gouvernance des données
La gouvernance des données Microsoft Purview, avec Catalogue unifié Microsoft Purview et Mappage de données Microsoft Purview, offre une visibilité complète, une confiance des données et une innovation responsable pour aider les organisations à obtenir une plus grande valeur commerciale à l’ère de l’IA. À l’aide d’un exemple de gestion des données d’intégrité, suivez les étapes décrites dans cet article pour vous aider à comprendre comment configurer Catalogue unifié et utiliser ses fonctionnalités pour créer une pratique de gouvernance des données saine pour votre organization.
Étape 1 : Configurer vos domaines de gouvernance dans Catalogue unifié
Les domaines de gouvernance sont la clé pour établir la responsabilité de vos données et aideront à fédérer la gouvernance de ces données au sein de l’entreprise. Lorsque vous créez des domaines de gouvernance, en commençant par le propriétaire approprié, vous êtes en mesure d’identifier et de collaborer efficacement avec des experts pour toutes les données du patrimoine de données. Les domaines de gouvernance peuvent être de nombreux types différents à aligner sur le type de limite de données pour l’équipe qui régira ces données. Par exemple : domaines fonctionnels (finance, RH, ventes) ou domaines de données (produit, client, santé).
Configuration requise
- Vous avez besoin du rôle Administrateur de gouvernance des données pour le Catalogue unifié.
Accorder des autorisations et créer le premier domaine de gouvernance
Ouvrez le portail Microsoft Purview.
Connectez-vous au portail Microsoft Purview à l’aide des informations d’identification d’un compte d’administrateur auquel le rôle de gestion des rôles est attribué (par exemple, un administrateur Purview). Accédez à Paramètres > Rôles et étendues pour afficher et gérer.
Sélectionnez Groupes de rôles.
Dans la page Groupes de rôles pour les solutions Microsoft Purview , sélectionnez le groupe de rôles Gouvernance des données .
Dans la page Modifier le membre du groupe de rôles , sélectionnez Choisir des utilisateurs ou Choisir des groupes.
Sélectionnez la zone case activée pour tous les utilisateurs ou groupes que vous souhaitez ajouter au groupe de rôles.
Sélectionnez Sélectionner.
Dans Catalogue unifié, sélectionnez Gestion du catalogue, puis Domaines de gouvernance.
Dans la page Domaines de gouvernance , vous pouvez configurer le reste de votre catalogue pour permettre à d’autres personnes de fédérer la propriété des données, de donner aux équipes les moyens de développer leurs connaissances et d’établir la valeur métier de vos données.
- Commencez par sélectionner Nouveau domaine de gouvernance.
- Vous pouvez mettre à jour le nom de votre domaine de gouvernance, mais pour cela, nous pouvons le nommer « (Tutoriel) Personal Health » et lui donner une description de « Les données de santé personnelles font référence à toute information liée à la santé physique ou mentale d’un individu qui est collectée et utilisée dans le secteur de la santé. Cela peut inclure un large éventail de types de données, tels que les dossiers médicaux, les historiques de traitement, les images de diagnostic et les résultats des tests de laboratoire. Il est souvent protégé par diverses lois et réglementations pour garantir la confidentialité et la confidentialité.
- Sélectionnez le type en tant que « domaine de données ».
- Laissez le parent vide (s’il s’agit du premier domaine de gouvernance du catalogue, il n’aura rien à sélectionner ici)
- Sélectionnez Créer.
- Créez maintenant deux domaines supplémentaires par vous-même. Il s’agit de points clés de fédération pour la collaboration et la gouvernance dans votre propre organization. Réfléchissez donc aux propriétaires de vos domaines lorsque vous implémentez Catalogue unifié Microsoft Purview.
- Vous pouvez suivre ces exemples :
- Un domaine fonctionnel d’entreprise représente les ressources et les termes hautement contrôlés qu’une entreprise entière utilise.
- Sales est un domaine fonctionnel que la plupart des organisations auront et qui est un domaine enfant de Corporate.
- Commencez par sélectionner Nouveau domaine de gouvernance.
Sélectionnez le domaine de gouvernance créé.
Sélectionnez l’onglet Rôles du domaine de gouvernance.
Par défaut, lorsque vous créez le domaine de gouvernance, vous êtes ajouté à tous les rôles dans le domaine de gouvernance. En tant que propriétaire de domaine de gouvernance, vous ajoutez les gestionnaires de données (experts métier de votre domaine) et les propriétaires de produits de données (qui savent quelles ressources de données sont les mieux à consommer).
Revenez à l’onglet Détails .
Sélectionnez le bouton Gérer les stratégies pour appliquer une stratégie au niveau du domaine. Cette stratégie sera appliquée à tous les produits de données du domaine, ce qui permet l’application automatique d’une stratégie afin que les experts en données n’aient pas à être également des experts en stratégie.
Sous l’onglet Gérer les stratégies d’accès , cochez la case en regard de Autoriser les copies de données. En sélectionnant cette option de stratégie, il applique automatiquement une attestation qui oblige tous les utilisateurs qui demandent l’accès à vos produits de données à attester qu’ils comprennent la stratégie de copie de données pour vos données.
Sélectionnez Enregistrer les modifications pour confirmer que la stratégie est définie par le domaine de gouvernance.
Sélectionnez Publier sur le domaine de gouvernance. Le bouton Publier publie tous les autres concepts au sein du domaine.
Créer des termes de glossaire
L’ajout de termes de glossaire à votre domaine de gouvernance permet à d’autres personnes de mieux comprendre comment l’entreprise utilise et comprend les données. Les termes du glossaire garantissent également que les insights utilisent des termes courants, et généralement vos connaissances dans votre domaine de gouvernance.
Dans la page de votre domaine de gouvernance, recherchez les termes du glossaire carte et sélectionnez Afficher tout.
Dans la page Termes du glossaire , sélectionnez Nouveau terme.
Entrez les détails :
- Nom : 'Outbreak'
- Description : Maladie qui a touché ou qui est susceptible d’affecter une grande partie de la population.
- Vous pouvez laisser le reste vide pour l’instant, mais il y a des champs à collecter : le propriétaire du terme responsable de la définition du terme pour votre entreprise, acronymes à partager communs également appelés noms du terme, enfin vous pouvez fournir des liens vers les ressources qui auraient encore plus d’informations sur le terme.
Sélectionnez Créer.
Sélectionnez le bouton Gérer les stratégies . Comme pour les stratégies au niveau du domaine, vous pouvez créer des stratégies de niveau terme qui seront appliquées partout où le terme est utilisé.
Cochez la case en regard de Approbation du gestionnaire requise. Cela applique une approbation secondaire du responsable des utilisateurs répertoriés dans Microsoft Entra ID lorsque l’accès aux produits de données est demandé.
Sélectionnez Publier pour le terme d’épidémie créé. Les termes publiés peuvent être filtrés dans Catalogue unifié et s’assurer que les autres utilisateurs qui utilisent le terme pour décrire leur produit de données pourront voir cette description dans Catalogue unifié lors de la navigation dans le produit de données.
Créez maintenant deux termes supplémentaires. Cette fois, sélectionnez le terme « Épidémie » comme terme parent pour les termes que vous avez créés. Essayez de créer des relations entre ces termes enfants dans l’onglet associé sur l’un ou l’autre terme pour vous aider à créer le réseau de la façon dont ces termes fonctionnent ensemble pour expliquer l’intégralité d’une rubrique.
- Pandémie : flambée mondiale d’une maladie qui touche un grand nombre de personnes dans plusieurs pays ou continents.
- Épidémie : épidémie à l’échelle nationale ou régionale d’une maladie qui est très contagieuse et qui touche une grande partie de la population.
Essayez de créer quelques autres termes dans d’autres domaines que vous avez créés précédemment. Si vous ne savez pas quoi ajouter, essayez le bouton Obtenir les termes suggérés pour que GenAI en propose quelques-uns en fonction de la description et du nom du domaine que vous avez déjà fournis.
Ajouter un OKR
Ajoutez maintenant un OKR (objectif et résultat clé) pour votre domaine Santé personnelle afin d’aider les autres utilisateurs à comprendre la valeur métier de vos données. Cela crée une connexion directe entre vos données et la valeur métier qu’elles fournissent.
Sélectionnez la zone OKR dans la page du domaine de gouvernance.
Sélectionnez Nouveau OKR.
Entrez d’abord les détails de l’objectif :
- Objectif : Réduire le risque pandémique en permettant l’adoption efficace du vaccin par les patients.
- Propriétaire : entrez votre nom
- Date cible : « 2024-12-31 »
Sélectionnez Créer.
L’ajout de résultats clés à votre objectif garantit que les objectifs sont mesurables et que la progression vers l’objectif est surveillée. Sélectionnez + Ajouter un résultat de clé.
Entrez les détails du résultat clé :
- Résultat clé : Veillez à ce que 80 % des groupes d’âge plus âgés (>65 ans) les plus susceptibles d’être touchés par la pandémie reçoivent une vaccination complète d’ici la fin de l’année civile 2024.
- Progression status : Sur la bonne voie
- Montant de progression : 70
- Montant de l’objectif : 80
- Montant maximal : 100
Sélectionnez Créer.
Sélectionnez Publier.
Créer des éléments de données critiques
Enfin, créez un élément de données critique (CDE) dans Personal Health pour vous assurer que les colonnes de données les plus importantes ont une définition et une compréhension cohérentes et qu’elles répondent toujours aux attentes de l’entreprise quant à la façon dont ces données sont formées et stockées.
- Dans la page Domaines de gouvernance avec le domaine Intégrité personnelle sélectionné, sélectionnez la zone Éléments de données critiques .
- Sélectionnez Nouvel élément de données critiques.
- Entrez les métadonnées CDE de base :
- Nom : Groupes d’âge
- Description : Regroupement courant de l’âge des personnes utilisé pour s’assurer que les rapports analytiques nécessaires suivent une référence sur laquelle d’autres personnes peuvent dépendre et en supprimant les âges individuels pour améliorer l’anonymat des données. Le groupe d’âge est divisé en 8 groupes ; <2 ans, 2-4 ans, 5-11 ans, 12-17 ans, 18-24 ans, 25-49 ans, 50-64 ans, 65 ans et plus.
- Propriétaire : entrez votre nom
- Type de données attendu : Texte
- Sélectionnez Créer.
Le véritable pouvoir du CDE est qu’il mappe directement aux colonnes de données physiques dans lesquelles ces données sont stockées. Cette connexion garantit une compréhension commune et permet l’évaluation des règles et des stratégies de qualité des données à grande échelle.
Dans le CDE que vous venez de créer, sélectionnez + Ajouter une colonne.
Rechercher la ressource de données Vaccin contre la Covid 19 et Tendances des cas à partir du conteneur or du lac de données
Cochez la case, et non le nom, de la ressource Vaccin contre la Covid 19 et Tendances des cas .
Conseil
Si vous sélectionnez le nom bleu de la ressource, une nouvelle fenêtre s’ouvre dans Microsoft Purview et affiche les détails de la ressource.
Sélectionnez la case d’option en regard de la colonne AgeGroupVacc.
Sélectionnez Ajouter.
Sélectionnez l’onglet Qualité des données en haut du CDE que vous venez de créer pour appliquer des règles de qualité des données au CDE. Cela est similaire à la façon dont vous avez ajouté des stratégies pour les termes de glossaire et les domaines de gouvernance.
Sélectionnez Nouvelle règle
Sélectionner la correspondance du type de données
Entrer le nom de la règle : Confirmer la mise en forme du groupe d’âge
Sélectionnez Créer.
Sélectionnez Publier sur le CDE.
Ce CDE applique désormais automatiquement une règle de qualité des données à chaque produit de données qui utilise la ressource Vaccin contre la Covid 19 et Tendances des cas, que nous allons parcourir dans la section suivante.
- Essayez de créer quelques autres CDE dans vos autres domaines. Voici quelques idées :
- Ventes : chiffre d’affaires et nom du vendeur
- Entreprise : ID de produit
Étape 2 : Configurer et inscrire vos données dans Data Map
Si vous n’avez pas de sources de données disponibles pour l’analyse, vous pouvez suivre ces étapes pour déployer entièrement un exemple Azure Data Lake Storage (ADLS Gen2).
Conseil
Si vous disposez déjà d’une source de données dans le même locataire que votre compte Microsoft Purview, passez à la prochaine partie de cette section pour analyser vos ressources.
Dans un patrimoine de données réel, vous trouverez de nombreux systèmes différents en cours d’utilisation pour différentes applications de données. Il existe des environnements de création de rapports tels que Fabric et Snowflake où les équipes utilisent des copies de données pour créer des solutions analytiques et alimenter leurs rapports et tableaux de bord. Il existe des systèmes de données opérationnels qui alimentent les applications utilisées par les équipes ou les clients pour effectuer des processus métier qui collectent ou ajoutent des données en fonction des décisions prises pendant le processus.
Pour créer un patrimoine de données plus réaliste, il est recommandé d’afficher de nombreuses sources de données dans le catalogue, ce qui peut couvrir l’éventail des différentes utilisations de données que n’importe quelle entreprise peut avoir. Les types de données nécessaires pour alimenter un cas d’usage peuvent être très différents avec les utilisateurs professionnels qui ont besoin de rapports et de tableaux de bord, les analystes ont besoin de dimensions et de faits conformes pour créer des rapports, les scientifiques des données ou les ingénieurs données ont besoin de données sources brutes qui proviennent directement du système qui collecte les données toutes ces et plus permettent à différents utilisateurs de voir l’importance de trouver, compréhension et accès aux données au même endroit.
Pour d’autres didacticiels sur l’ajout de données à votre patrimoine, vous pouvez suivre ces guides :
- Didacticiel Fabric Lakehouse : fournit la base d’un environnement de création de rapports
- base de données Azure SQL (exemple) : fournit un exemple bien structuré d’un magasin de données opérationnel
Configuration requise
- Abonnement dans Azure : Créer votre compte Gratuit Azure aujourd’hui
- Microsoft Entra ID pour votre locataire : Gouvernance Microsoft Entra ID
- Un compte Microsoft Purview
- Administration l’accès au compte Microsoft Purview (il s’agit de la valeur par défaut si vous avez créé le compte Microsoft Purview. Autorisations dans la nouvelle préversion du portail Microsoft Purview | Microsoft Learn)
- Toutes les ressources ; Microsoft Purview, votre source de données et Microsoft Entra ID doivent se trouver dans le même locataire cloud.
Configurer votre patrimoine de données
A. Créer et remplir un compte de stockage
- Suivez ce guide pour créer un compte de stockage : Créer un compte de stockage pour Azure Data Lake Storage Gen2
- Créez des conteneurs pour votre nouveau lac de données :
- Accédez à la page Vue d’ensemble de notre compte de stockage.
- Sélectionnez l’onglet Conteneurs sous la section Stockage de données.
- Sélectionnez le bouton + Conteneur
- Nommez « bronze » et sélectionnez le bouton Créer
- Répétez ces étapes pour créer un conteneur « gold »
- Téléchargez des exemples de données CSV à partir de data.gov : Covid-19 Vaccination and Case Trends by Age Group, États-Unis
- Chargez le fichier CSV dans le conteneur nommé « bronze » dans le compte de stockage que vous avez créé.
- Sélectionnez le conteneur nommé « bronze », puis sélectionnez le bouton Charger .
- Parcourez l’emplacement où vous avez enregistré le fichier CSV et sélectionnez le fichier Covid-19_Vaccination_Case _Trends .
- Sélectionnez Télécharger.
B. Créer un Azure Data Factory
Cette étape montre comment les données se déplacent entre les couches d’un lac de données medallion et s’assure que les données sont dans un format standardisé que les consommateurs s’attendent à utiliser. Il s’agit d’une étape préalable à l’exécution de la qualité des données.
Suivez ce guide pour créer un Azure Data Factory : Créer un Azure Data Factory
Copiez les données du fichier CSV dans le conteneur « bronze » vers le conteneur « gold » en tant que table au format Delta à l’aide de ce guide Azure Data Factory : Transformer des données à l’aide d’un flux de données de mappage
Ouvrez l’expérience Azure Data Factory (ADF) à partir de la Portail Azure en sélectionnant le bouton Lancer studio sous l’onglet Vue d’ensemble de la ressource ADF créée.
Sélectionnez l’onglet Auteur dans ADF Studio.
Sélectionnez le + bouton et sélectionnez Flux de données dans le menu déroulant.
Nommez le flux de données « CSVtoDeltaC19VaxTrends ».
Sélectionnez Ajouter une source dans la zone vide.
Définissez Paramètres de la source sur :
- Nom du flux de sortie : « C19csv »
- Description : laissez vide
- Type de source : Inline
- Type de jeu de données inline : Texte délimité
- Service lié : sélectionnez le lac de données dans lequel vous avez stocké le fichier csv
Définissez Options de la source sur :
- Mode fichier : Fichier
- Chemin d’accès au fichier : /bronze/ Covid-19_Vaccination_Case _Trends
- Autoriser l’absence de fichiers trouvés : laissez décochée
- Capture des modifications de données : laissez décochée
- Type de compression : Aucun
- Encodage : par défaut (UTF-8)
- Délimiteur de colonne : Virgule (,)
- Délimiteur de ligne : par défaut(\r, \n ou\r\n)
- Caractère de guillemet : Guillemet double (")
- Caractère d’échappement : barre oblique inverse ()
- Première ligne comme en-tête : CHECKED
- Laissez le reste comme valeurs par défaut
Sélectionnez la petite + En regard de la source créée, puis sélectionnez Récepteur
Créez le récepteur dans lequel le format et l’emplacement des données à stocker pour déplacer les données d’un fichier csv en « bronze » vers une table delta en « or ».
- Définissez les valeurs du récepteur (conservez tous les paramètres par défaut, sauf indication contraire)
- Type de récepteur : Inline
- Type de jeu de données inline : Delta
- Service lié : le même lac de données que celui utilisé dans la source, car nous allons stocker dans un autre conteneur.
Définissez les valeurs De paramètre (conservez tous les paramètres par défaut, sauf indication contraire)
- Chemin d’accès au dossier : vaccin or/Covid19 et tendances des cas
Vous devez entrer la valeur, car ce nom correspond à la façon dont nous voulons que les données soient stockées et qu’il n’existe pas de sélection.
Sélectionnez Valider pour vérifier votre flux de données et fournir des instructions pour corriger les erreurs éventuelles.
Sélectionnez Publier tout.
Sélectionnez le + bouton et sélectionnez pipeline dans le menu déroulant
Nommez votre pipeline « CSV to Delta C19 Vax Trends »
Sélectionnez le flux de données créé dans les étapes précédentes CSV vers Delta (C19VaxTrends) et faites-le glisser-déplacer sur l’onglet du pipeline ouvert.
Sélectionnez Valider.
Sélectionnez Publier.
Sélectionnez Déboguer (utiliser le runtime d’activité) pour exécuter le pipeline.
Conseil
Si vous rencontrez des erreurs pour des espaces ou des caractères inappropriés pour le format delta : ouvrez le fichier CSV téléchargé et apportez des corrections. Ensuite, re-chargez et remplacez le fichier CSV dans la zone bronze. Réexécutez ensuite votre pipeline.
Accédez à votre conteneur Gold dans le lac de données. Vous devez maintenant voir la nouvelle table Delta créée pendant le pipeline.
Analyser vos ressources
Si vous n’avez pas analysé les ressources de données dans votre Mappage de données Microsoft Purview, vous pouvez suivre ces étapes pour remplir votre mappage de données.
L’analyse des sources dans votre patrimoine de données collecte automatiquement les métadonnées des ressources de données (tables, fichiers, dossiers, rapports, etc.) dans ces sources. En inscrivant une source de données et en créant l’analyse, vous établissez la propriété technique sur les sources et les ressources affichées dans le catalogue et vous assurez que vous contrôlez qui peut accéder aux métadonnées dans Microsoft Purview. En inscrivant et en stockant les sources et les ressources au niveau du domaine, elles seront stockées au niveau le plus élevé de la hiérarchie d’accès. En règle générale, il est préférable de créer des collections dans lesquelles vous allez analyser les métadonnées de la ressource et établir la hiérarchie d’accès correcte pour ces données.
-
Fournir un accès en lecture pour l’identité managée Microsoft Purview (MSI) à votre lac de données ou à un autre magasin de données.
Conseil
Le MSI est le nom de compte du instance Microsoft Purview.
Si vous avez choisi d’utiliser Microsoft Fabric ou SQL, vous pouvez utiliser ces guides pour fournir l’accès :
Inscrire votre lac de données et analyser vos ressources
Dans Mappage de données Microsoft Purview sous l’onglet Domaines, sélectionnez attributions de rôles pour le domaine (il s’agit du nom du compte Microsoft Purview) :
- Ajoutez-vous en tant qu’administrateur de source de données et conservateur de données au domaine.
- Sélectionnez l’icône de personne en regard du rôle Administrateur de source de données.
- Recherchez votre nom tel qu’il est dans Microsoft Entra ID (il peut vous obliger à entrer votre nom complet exactement comme dans Microsoft Entra ID).
- Sélectionnez OK.
- Répétez ces étapes pour le curateur de données.
- Ajoutez-vous en tant qu’administrateur de source de données et conservateur de données au domaine.
Inscrivez le lac de données :
- Sélectionnez l’onglet Sources de données .
- Sélectionner Inscription.
- Sélectionnez le type de stockage Azure Data Lake Storage Gen2.
Fournissez les détails pour vous connecter :
- Abonnement (facultatif)
- Nom de la source de données (il s’agit du nom de la source ADLS Gen2)
- Collection dans laquelle les métadonnées des ressources doivent être stockées (facultatif)
- Sélectionnez Inscrire.
Une fois l’inscription de la source de données terminée, vous pouvez configurer l’analyse. L’inscription signifie que Microsoft Purview est connecté à la source de données et l’a placée dans la collection appropriée pour la propriété. L’analyse lit ensuite les métadonnées de la source et remplit les ressources dans le mappage de données.
Sélectionnez la source que vous avez inscrite dans l’onglet Sources de données
Sélectionnez une nouvelle analyse et fournissez des détails :
- Utiliser le runtime d’intégration par défaut pour cette analyse
- Les informations d’identification doivent être Microsoft Purview MSI (système)
- Le niveau d’analyse est Détection automatique
- Sélectionnez une collection ou utilisez le domaine (la collection doit être la même collection ou collection enfant que celle où la source de données a été inscrite)
- Sélectionnez Continuer
Conseil
À ce stade, Microsoft Purview teste la connexion pour vérifier qu’une analyse peut être effectuée. Si vous n’avez pas accordé l’accès lecteur MSI Microsoft Purview à la source de données, cela échoue. Si vous n’êtes pas le propriétaire de la source de données ou si vous disposez d’un accès utilisateur contributeur l’analyse échoue, car elle s’attend à ce que vous ayez l’autorisation de créer la connexion.
À présent, sélectionnez uniquement le conteneur « gold » dans lequel nous avons placé la table delta dans la section des données de construction du didacticiel. Cela empêchera l’analyse des autres ressources de données qui se trouvent dans votre magasin de données.
- Si vous n’avez qu’un seul case activée bleu en regard de l’or, vous pouvez laisser des vérifications à côté de tout, car il analysera la source complète et créera les ressources que nous utiliserons et bien plus encore.
- Sélectionnez Continuer
Dans l’écran Sélectionner un ensemble de règles d’analyse, vous devez utiliser l’ensemble de règles d’analyse par défaut.
Sélectionnez Continuer
Dans Définir un déclencheur d’analyse, vous définissez la fréquence de l’analyse afin que vous continuez à ajouter des ressources de données au conteneur gold du lac, il continue à remplir la carte de données. Sélectionnez Une fois.
Cliquez sur Continuer.
Sélectionnez Enregistrer et exécuter. Cette opération crée une analyse qui lit uniquement les métadonnées du conteneur Gold de votre lac de données et remplit la table que nous utiliserons dans Catalogue unifié Microsoft Purview dans les sections suivantes. Si vous sélectionnez uniquement Enregistrer, l’analyse n’est pas exécutée et les ressources ne s’affichent pas. Une fois l’analyse en cours d’exécution, vous verrez l’analyse que vous avez créée avec un status de dernière exécutionde En file d’attente. Une fois l’analyse terminée, vos ressources sont prêtes pour la section suivante. Cette opération peut prendre quelques minutes ou quelques heures en fonction du nombre de ressources que vous avez dans votre source.
Étape 3 : Publier vos produits de données
La création de produits de données est essentielle pour vous assurer que vos organization rendent les données appropriées détectables. Les produits de données vous aideront à empêcher la gouvernance de données qui sont faibles ou sans valeur dans votre patrimoine de données, car elles n’ont aucune utilisation ou une valeur limitée. S’assurer que vos experts en données sont sur le point de publier des produits de données active vos données les plus précieuses et créent le niveau de gouvernance approprié en fonction de cette valeur. L’organisation des ressources dont les équipes techniques ne connaissent pas l’objectif commercial ou la tentative de gouverner tout ce qui se trouve dans votre patrimoine de données complexe et croissant entraîne un temps supplémentaire et une perte de productivité pour chasser les détails des données qui pourraient ne jamais être utilisées ou qui pourraient simplement être supprimées du patrimoine. Au lieu de cela, concentrez-vous sur les données qui ont de la valeur et que les utilisateurs doivent découvrir et créer encore plus de valeur. À mesure que les équipes utilisent davantage de données et qu’elles comprennent mieux ce qui est nécessaire, des produits de données plus utiles peuvent être créés pour répondre à ces demandes et la gouvernance peut s’adapter pour s’assurer qu’elle conserve toujours la bonne taille en fonction de la valeur et de la sensibilité des données.
Configuration requise
- Doit être un propriétaire de produit de données pour le domaine de gouvernance que vous utilisez.
- Le mappage de données doit contenir des ressources de données. Si ce n’est pas le cas, consultez la section 2 de ce tutoriel pour en ajouter.
- Un domaine de gouvernance doit être publié pour publier un produit de données. Si vous n’en avez pas, consultez la section 1 de ce didacticiel pour en créer un.
Créer et publier un produit de données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sélectionnez Gestion du catalogue , puis Domaines de gouvernance.
Dans la page Domaines de gouvernance , sélectionnez le domaine Intégrité personnelle
Sélectionnez le lien Accéder aux produits de données sous Concepts métier
C’est ici que les experts en données appelés propriétaires de produits de données identifient les ressources de données destinées à être consommées par d’autres personnes dans votre organization et fournissent les informations nécessaires pour les rendre utilisables.
Sélectionnez Nouveau produit de données
Fournir des détails sur le produit de données
- Nom : « Vaccination contre le Covid-19 et tendance des cas par âge »
- Description : « Ces données proviennent du CDC dans le cadre du département de la Santé & Human Services des États-Unis. Les données contiennent les tendances des vaccinations et des cas par groupe d’âge, au niveau national américain. Les données sont stratifiées par au moins une dose et entièrement vaccinées. Les données représentent également tous les partenaires vaccinaux, y compris les cliniques partenaires de compétence, les pharmacies de détail, les établissements de soins de longue durée, les centres de dialyse, les sites partenaires de l’Agence fédérale de gestion des urgences et de l’Administration des ressources et services de santé, et les établissements d’entités fédérales.
- Type : Jeu de données
- Sélectionnez Suivant
- Cas d’usage : « Ces données sont fournies pour un usage public et sont destinées à aider à comprendre les tendances de la vaccination et des nouveaux cas par différents groupes d’âge. Les âges sont répartis en deux groupes allant de <2 ans à 65 ans et plus. De même, les tendances sont fournies par des nombres quotidiens qui fournissent la moyenne de sept jours de nouveaux cas par groupe d’âge.
- Marquer comme Approuvé comme activé.
- Sélectionnez Enregistrer.
Vous disposez maintenant des métadonnées de base du produit de données. Ensuite, ajoutez des propriétés et mappez la ressource à partir du mappage de données.
Sélectionnez le bouton + Ajouter des ressources de données .
Vous verrez les ressources que vous avez analysées dans le mappage de données, ce qui inclut tous les dossiers et couches de la source de données.
Recherchez la ressource Vaccin contre la Covid19 et Tendances des cas que vous avez ajoutées au conteneur gold de votre lac de données, puis sélectionnez cet ensemble de ressources.
Sélectionnez Ajouter. Vous pouvez sélectionner autant de ressources que nécessaire pour un produit de données, mais ici, une seule est nécessaire.
Conseil
Essayez le bouton Obtenir des suggestions pour que GenAI vous aide à choisir parmi les ressources de votre carte de données et sélectionnez vaccins covid19 et tendances de cas dans une liste réduite de résultats.
Vous pouvez maintenant voir la ressource ajoutée à votre produit de données.
Sélectionnez + Ajouter un terme en regard du titre des termes du glossaire.
Sélectionnez le terme Outbreak créé précédemment, puis sélectionnez Ajouter
Vous devez maintenant voir l’élément de données critique pour le groupe d’âge de la ressource mappée au produit de données.
Sélectionnez + Ajouter OKR en regard du titre OKR
Sélectionnez Réduire le risque pandémique en permettant l’adoption efficace du vaccin par les patients. C’est l’objectif que nous avons créé dans la première section.
Gérer les stratégies de demande d’accès aux produits de données
En haut de la page, la dernière étape avant la publication du produit de données consiste à sélectionner le bouton Gérer les stratégies . Ici, les stratégies d’accès et le flux de travail de demande d’accès sont configurés en effectuant des sélections et en fournissant les noms pour approbation. Vous pouvez également utiliser l’onglet Stratégies héritées pour voir la stratégie de domaine de gouvernance appliquée pour l’attestation des copies de données que nous avons appliquée précédemment. Il en va de même pour l’approbation du gestionnaire requise à partir du terme du glossaire de l’épidémie.
Sélectionnez l’onglet Gérer les stratégies .
Sous Limite de temps d’accès, indiquez la durée pendant laquelle la demande d’accès est valide avant de devoir être renouvelée. Nous allons définir cette option pour accorder l’accès pendant un an maximum.
Dans la boîte, mettez 1.
Sélectionnez les années dans la liste déroulante.
Sous Conditions d’approbation, indiquez votre nom dans la zone approbateurs. (Cela nécessite le nom inscrit dans Microsoft Entra ID)
Remarque
Il n’est pas nécessaire d’case activée’approbation du gestionnaire, car cette stratégie est héritée du terme du glossaire des éclosions.
Sélectionnez le bouton Formulaire de demande d’aperçu pour voir ce que les consommateurs du catalogue verront lors de la demande d’accès. Vous verrez l’attestation de copie de données et l’approbation du responsable requises, car elles ont été définies par le domaine de gouvernance et le terme de glossaire.
Sélectionnez Enregistrer les modifications.
Une fois les ressources de données mappées et les stratégies d’accès configurées, vous êtes prêt à publier votre produit de données dans le catalogue.
Sélectionnez Publier sur le produit de données.
Essayez de créer un rapport sur les bénéfices dans d’autres domaines que vous avez créés précédemment
- Rapport sur les bénéfices, Type : Tableaux de bord/rapports.
- Product Master, Type : données Maser et données de référence.
Remarque
Vous pouvez ajouter de nombreuses ressources à celles-ci et voir à quoi ressemblera un produit de données avec de nombreuses ressources et peut les produits de données aux termes de n’importe quel domaine pour voir comment le glossaire est utilisé pour décrire les données à l’aide d’un ensemble cohérent de termes.
Étape 4 : Exécuter la qualité des données
Maintenant qu’un produit de données est disponible dans le catalogue, l’exécution de règles de qualité des données indique à tout le monde que les données sont en bon état et prêtes à être utilisées. À mesure que nous en apprenons davantage sur les données, de nouvelles règles de qualité des données peuvent être ajoutées pour s’assurer qu’elles sont adaptées à tous les cas d’usage. S’assurer que les produits de données sont de la plus haute qualité vous aidera à établir la confiance dans vos données et à informer les autres qu’elles sont surveillées et améliorées. À mesure que la valeur des données augmente, la qualité de ces données devra être plus étroitement surveillée et contrôlée, car les problèmes de qualité des données peuvent avoir des répercussions massives si elles sont mal gérées.
Configuration requise
- Les règles de qualité des données ne peuvent être exécutées que sur des tables au format delta dans ADLS Gen2 et Microsoft Fabric.
- L’identité managée de Microsoft Purview doit être activée pour lire la source de données, car il s’agit des seules informations d’identification prises en charge pour la qualité des données aujourd’hui.
- Vous devez avoir le rôle de gestionnaire de la qualité des données dans le domaine de gouvernance dans lequel vous exécutez la qualité des données.
- Vous devez être le propriétaire ou disposer d’un accès administrateur de l’accès utilisateur à la source de données que vous connectez à l’analyse de la qualité des données pour garantir l’autorisation de sécurité appropriée pour analyser les données.
- Vous devez disposer du rôle de gestionnaire de profil de données pour exécuter des profils sur vos données.
Créer et exécuter des règles de qualité des données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sélectionnez l’onglet Qualité des données sous Gestion des données.
Sélectionnez le domaine d’intégrité personnel créé dans la section 1.
Sélectionnez le bouton Gérer et sélectionnez Connections dans le menu. La création de cette connexion garantit que vous êtes en mesure d’exécuter des analyses de la qualité des données sur votre source de données dans ce domaine de gouvernance, ce qui empêche les équipes d’accéder à la connaissance des données sans autorisation appropriée.
Sélectionnez Nouveau dans l’écran connexions pour créer une connexion :
- Indiquez le nom complet « Personal Health ADLSg2 DQ ».
- Sélectionnez le type de source de Azure Data Lake Storage Gen2.
- Fournissez les détails de la source de données créée dans la section 2.
Remarque
Les informations d’identification doivent être Microsoft Purview MSI (système) pour une connexion de qualité des données
- Sélectionnez Tester la connexion
- Une fois la connexion testée, sélectionnez Envoyer
- Fournissez les détails de la source de données créée dans la section 2.
Une fois la connexion établie, vous êtes prêt à exécuter des profils et à commencer à créer des règles de qualité des données. Cela garantit que les experts qui connaissent les règles d’entreprise et les règles appropriées s’exécutent sur les produits de données les plus importants.
- Retour à la page Qualité des données.
- Sélectionnez le domaine de gouvernance Intégrité personnelle.
- Sélectionnez le produit de données Vaccination et tendance des cas covid-19 par âge intégré à la section 3.
- Sélectionnez la ressource qui a été ajoutée au produit de données. (Il doit être au format delta de la section 2 , sinon la qualité des données ne s’exécute pas).
- Appliquez des règles de qualité des données aux colonnes des données pour mesurer si elles répondent à vos attentes en matière de qualité :
- Sélectionnez l’onglet Règles sur la ressource sélectionnée.
- Sélectionnez Nouvelle règle.
- Sélectionnez la règle champs vides/vides.
- Fournissez des détails :
- Sélectionnez La colonne AgeGroupVacc dans la liste déroulante des colonnes
- Nom de la règle : Confirmer l’existence du groupe d’âge de la vaccination
- Sélectionnez Créer.
- Sélectionnez Nouvelle règle.
- Sélectionnez Correspondance du type de données.
- Fournissez des détails.
- Sélectionnez Date Colonne d’administration.
- Sélectionnez Créer.
- Sélectionnez Exécuter l’analyse de la qualité des données.
Données de profil
Créez un profil pour vos données pour voir les statiques de haut niveau de chaque colonne et découvrir les anomalies susceptibles d’avoir une nouvelle règle.
- Dans Catalogue unifié, sélectionnez Gestion de l’intégrité, puis Qualité des données.
- Sélectionnez Données de profil
- Cochez la case supérieure en regard de Nom de colonne pour profiler toutes les colonnes. Microsoft Purview vous recommande les colonnes à profiler, et vous pouvez sélectionner des colonnes dont vous savez qu’un profilage vaut la peine d’être profilé pour empêcher les profils sur des données hautement sensibles ou des données dont vous savez qu’elles seront peu remplies.
- Sélectionnez Exécuter le profil
Une fois l’analyse terminée, vous serez en mesure d’examiner le score de qualité des données et le profil de votre nouveau produit de données, et le score de qualité des données sera disponible pour tous les utilisateurs du catalogue afin que tous connaissent les status des données.
Créez une planification pour vos analyses de qualité des données afin de vous assurer que vous surveillez en permanence les problèmes de qualité des données. Définissez des alertes pour vous assurer que vous traitez les problèmes de qualité des données avant que les consommateurs ne soient affectés.
- Sous Gestion de l’intégrité, sélectionnez Qualité des données.
- Sélectionnez le domaine Intégrité personnelle dans lequel nous avons configuré les règles de qualité des données.
- Dans la liste déroulante Gérer , sélectionnez Analyses planifiées.
- Dans la page Analyses planifiées , sélectionnez Nouveau.
- Ajouter les détails de la vue d’ensemble
- Nom : Personal Health DQ Monthly Evaluation
- Description : analyse mensuelle des règles DQ pour l’amélioration continue.
- Sélectionnez Continuer
- Sélectionner l’étendue de l’analyse
- Cochez la case en regard de Vaccin contre le Covid-19 et Tendance des cas par âge produit de données
- Sélectionnez Continuer
- Planifiez l’analyse pour vous assurer qu’elle s’exécute le dernier jour de chaque mois
- Sélectionnez Périodique.
- Périodicité : tous les mois
- Jours du mois : Dernier
- Planifier l’heure d’analyse (UTC) : 12:00:00
- Démarrer la périodicité à (UTC) : laisser par défaut
- Sélectionnez Continuer
- Passez en revue les détails de l’analyse pour voir s’il y a des modifications que vous souhaitez apporter avant d’enregistrer.
- Sélectionnez Enregistrer. Étant donné que nous avons déclenché une analyse manuelle plus tôt, nous n’avons pas besoin de déclencher une autre analyse maintenant, mais si une nouvelle analyse est nécessaire, sélectionnez Enregistrer et exécuter.
Configurer des alertes
Une fois que des analyses de qualité des données ont été planifiées, des alertes peuvent être déclenchées pour indiquer aux gestionnaires s’il existe des problèmes ou une attention nécessaire en raison de problèmes de qualité des données ou d’échecs d’analyse. Configurez une alerte de qualité des données pour les analyses ayant échoué et lorsque le score diminue de plus de 5 %.
- Retour au domaine Intégrité personnelle dans la page Qualité des données.
- Dans la liste déroulante Gérer , sélectionnez Alertes.
- Sélectionnez Nouveau.
- Entrer les détails de l’alerte
- Nom d’affichage : Analyse mensuelle personal health DQ
- Description : Pour vous assurer que les seuils de DQ minimum répondent aux attentes des consommateurs.
- Cible : le score diminue de plus de
- Seuil : 5
- Désactiver les notifications : laissez non cochée
- Activer la notification pour les analyses de qualité ayant échoué : laissez coché
- Destinataire : entrez votre nom
- Cliquez sur Continuer.
Conseil
Lors de l’implémentation dans votre Catalogue unifié vous souhaiterez envoyer les alertes aux gestionnaires qui peuvent informer les consommateurs du problème et collaborer avec le propriétaire technique des données pour apporter des corrections.
À la fin de cette section, vous disposez maintenant d’un Catalogue unifié fonctionnel avec la qualité des données opérationnelles pour gérer les données que vous proposez aux consommateurs de données de l’organisation. Tout a été d’obtenir les données les plus précieuses pour le consommateur et de renforcer la confiance dans les données qu’il utiliserait. À mesure que la valeur des données augmente et que de nouvelles stratégies de données émergent, la section suivante vous aidera à montrer comment vous pouvez gérer l’ensemble du catalogue ou approfondir la gestion des données spécifiques avec master Data.
Étape 5 : Gestion des données de référence
La gestion des données de référence est la pratique consistant à mettre en conformité les entités de données les plus importantes qui doivent être précises, uniques et appliquées de manière cohérente dans tous les domaines de l’entreprise, car les erreurs et les problèmes de ces données peuvent avoir un impact sur l’ensemble de l’entreprise. Grâce à l’un de nos partenaires GPM, vous serez en mesure d’intégrer votre solution master Gestion des données (MDM) à Microsoft Purview pour permettre l’unification, la standardisation et le nettoyage des données qui permettront la création d’enregistrements et la publication de master données en tant que produits de données.
Suivez les tutoriels ici pour la solution de votre choix : Gestion des données de référence dans Microsoft Purview
Étape 6 : Gérer l’intégrité des données
Dans Microsoft Purview Data Estate Health, le Bureau central des données et d’autres gestionnaires de données sont en mesure d’évaluer la status des données par rapport aux normes de leur entreprise et de gérer efficacement la progression de leur stratégie. Afin de s’assurer que tous les membres de l’entreprise savent ce qui peut être fait pour augmenter la valeur de leurs données, il est essentiel que les normes soient comprises et évolutives à l’ensemble de l’organization sans avoir à faire de chacun un expert en gouvernance des données. À partir d’un ensemble de contrôles standard du secteur qui sont disponibles prêts à l’emploi dans Microsoft Purview, chaque bureau de données et personnalisez les contrôles pour répondre à leurs attentes et s’assurer qu’ils s’alignent sur leurs objectifs de données. L’efficacité de ces contrôles est essentielle non seulement à la mesure de ces normes, mais également à la garantie que les responsables des données sont en mesure de prendre des mesures par eux-mêmes et d’être tenus responsables des améliorations qui affectent la valeur des données. Dans Data Estate Health, vous pouvez définir et gérer toutes ces fonctionnalités critiques.
Configuration requise
- Produits de données, termes de glossaire et autres concepts métier publiés dans Catalogue unifié Microsoft Purview. Vous pouvez suivre les sections précédentes pour les créer :
- Au moins 24 heures depuis la conservation des produits de données.
- Vous devez avoir le rôle Propriétaire de l’intégrité des données dans Catalogue unifié.
Évaluer la gouvernance de vos données avec l’intégrité du patrimoine de données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sous Data Estate Health dans le volet de navigation gauche, sélectionnez Contrôles d’intégrité.
Sélectionnez la carotte > en regard du groupe de contrôle Création de valeur.
Lorsque vous pointez sur un titre de contrôle, sélectionnez l’icône en forme de crayon pour modifier le contrôle. En modifiant le contrôle, vous modifiez le seuil du contrôle pour définir les attentes relatives au score et définissez le score de couleur pour illustrer les étapes de progression.
Les détails vous permettent de fournir une description du contrôle et de ce qu’il signifie pour votre organization et de définir un propriétaire pour un contrôle spécifique.
Sélectionnez l’onglet Règles du contrôle pour modifier le seuil. Cela montre qu’il a une cible élevée et s’il n’est pas sain, il est essentiel d’effectuer un suivi.
- Hériter du groupe : bascule pour désactiver (doit devenir gris).
- Score cible : 90
- Sélectionnez Nouvelle règle.
- Définissez la zone en regard du score sur GreaterThanOrEqual
- Définissez le pourcentage sur 90
- État = Intégrité (vert)
- État de la zone Else = Critique (violet)
- Sélectionnez Enregistrer.
Sous Intégrité du patrimoine de données, sélectionnez Qualité des métadonnées.
Ici, vous pouvez modifier ou ajouter des règles qui créent les scores du contrôle. Ici, nous voulons modifier la gravité des actions pour la création de valeur pour nous assurer que tous les utilisateurs connaissent l’importance de cette action.
- Sélectionnez Configurer la gravité.
- Sélectionner le groupe de contrôle Création de valeur
- Sélectionnez le titre du contrôle d’alignement OKR métier
- Modifiez la gravité de Moyenne à Élevée, puis sélectionnez Enregistrer.
- Sélectionnez l’onglet Actions d’intégrité
- Filtre Affecté à : à votre nom
- Sélectionnez une action dans laquelle vous pouvez voir ce que le propriétaire de l’action doit faire pour s’assurer que les attentes de gouvernance sont satisfaites ou il peut affecter un nouveau propriétaire pour obtenir le meilleur expert pour fournir sa contribution. Il existe également un status qui permet aux autres personnes de savoir ce qui se passe et où d’autres actions peuvent nécessiter une hiérarchisation.
Étape 7 : Démocratisation des données
Permettre aux utilisateurs de trouver et d’accéder aux données dont ils ont besoin de manière à se plaindre est l’essence même de la démocratisation des données et garantit que les utilisateurs peuvent trouver les données dont ils ont besoin pour créer de la valeur métier. Fournir une expérience propre et facile pour découvrir les données est l’objectif de Catalogue unifié Microsoft Purview, tout en permettant aux gestionnaires de mettre à jour et de gérer les données mises à disposition dans le catalogue à grande échelle. Dans cette section, nous expliquons comment les utilisateurs peuvent trouver et demander l’accès aux données, et nous nous assurons que les approbateurs appropriés sont en mesure de suivre et de fournir des entrées sur ces demandes d’accès.
Configuration requise
- Étapes 1 à 4 effectuées au minimum :
- Catalogue unifié autorisation de lecteur dans un domaine de gouvernance
Découvrir les produits de données
- Dans Catalogue unifié, sélectionnez Découverte, puis Produits de données.
- Dans la page Produits de données , utilisez la barre de recherche pour rechercher les taux de vaccination par âge.
- Ici, vous voyez les produits de données que vous avez publiés dans la section 2. Cela montre comment les utilisateurs sont exposés uniquement aux données qu’ils sont destinés à découvrir et empêchent les utilisateurs d’avoir à naviguer dans un patrimoine de données hautement technique.
- Sélectionner le produit de données Vaccination et tendance des cas covid-19 par âge
- Ici, les consommateurs peuvent voir les métadonnées que vous avez fournies et toutes les autres propriétés qui ont été configurées pendant l’installation. Le score de qualité des données est également ici afin que les consommateurs connaissent la qualité avant même d’accéder aux données.
- Sélectionnez la ressource et le consommateur peut voir toutes les colonnes disponibles dans la ressource de données.
- Sélectionnez le terme glossaire des éclosions pour que le consommateur puisse voir la description et d’autres informations sur le terme pour mieux comprendre les données.
- Une fois que le consommateur est certain qu’il souhaite utiliser ces données, il doit obtenir un accès approuvé aux données.
- Sélectionnez Demander l’accès
- Renseignez les détails du formulaire pour envoyer une demande.
- Utilisateur : laissez votre nom
- Approbation du responsable : automatiquement requise et dirigée vers le responsable Microsoft Entra ID.
- Objectif : sélectionner un objectif
- Justification métier : surveillance okr
- Cochez la case en regard de l’attestation pour indiquer que vous comprenez les attentes en matière d’utilisation de ces données.
- Sélectionnez Envoyer.
La demande d’accès est désormais envoyée au managé listé dans Microsoft Entra ID. À partir de là, le responsable peut accéder aux demandes en ouvrant l’e-mail et en sélectionnant un lien ou en entrant dans Microsoft Purview. L’approbation et la gestion de l’accès peuvent être effectuées directement dans Microsoft Purview.
- Dans Catalogue unifié, sélectionnez Gestion des catalogues, puis Demandes.
- Sélectionnez le domaine Intégrité personnelle .
- Sélectionnez la demande que vous avez envoyée.
- À présent, les approbateurs peuvent approuver ou refuser en sélectionnant Répondre à la demande.