Partager via


Processus de gouvernance des données

Il existe quatre catégories de processus de gouvernance des données.

Catégorie de processus Processus
Processus de détection des données, pour comprendre le paysage des données Un processus de découverte, de mappage et de catalogage d’entités de données et de données
Un processus de découverte de profilage des données pour déterminer la qualité des données
Processus sensible de classification de la gouvernance et de la découverte des données
Processus de détection de la maintenance des données pour l’analyse CRUD, par exemple à partir des fichiers journaux, pour comprendre l’utilisation et la maintenance des données telles que les données de référence dans l’entreprise
Processus de définition de la gouvernance des données Créez et tenez à jour un vocabulaire métier commun dans un glossaire métier ; définissez des entités de données, notamment des données de référence, des noms d’attributs de données, des règles d’intégrité des données et des formats valides
Définissez des données de référence pour normaliser les jeux de code dans l’entreprise
Définissez des schémas de classification de gouvernance des données pour étiqueter les données afin de déterminer comment les gérer
Définissez des stratégies et des règles de gouvernance des données pour régir les cycles de vie des documents et des entités de données
Définissez des métriques et un seuil de réussite
Stratégie de gouvernance des données et processus de mise en application des règles Processus permettant d’automatiser l’application et la mise en œuvre des règles et stratégies de gouvernance des données
Processus d’application manuelle et d’intégration des stratégies et des règles
Processus de gouvernance des données pilotés par les événements, à la demande et pilotés par l’heure publiés en tant que services pouvant être appelés pour régir :
Ingestion de données : catalogage, classification, attribution de propriétaire et stockage
Qualité des données
Sécurité de l’accès aux données
Confidentialité des données
L’utilisation des données, par exemple, notamment le partage et pour s’assurer que les données sous licence ne sont utilisées qu’à des fins appropriées
Maintenance des données, comme les données de référence
Conservation des données
Synchronisation des données maîtres et des données de référence
Surveillance des processus Surveillez et auditez l’activité d’utilisation des données, la qualité des données, la sécurité d’accès aux données, la confidentialité des données, la maintenance des données et la conservation des données
Surveillez la détection et la résolution de la violation des règles de stratégie

Le vocabulaire métier commun doit être défini dans un glossaire métier au sein d’un catalogue de données.

Les groupes de travail de gouvernance des données planifient et développent des données de définition et améliorent des domaines de données spécifiques (par exemple un client ou un fournisseur). Ils informent la commission de contrôle de la gouvernance des données de l’avancement et gèrent l’intendance dans l’ensemble de l’entreprise pour un domaine spécifique. Chaque groupe de travail doit prendre la responsabilité de définir une entité de données ou une zone de sujet de données spécifique, par exemple plusieurs entités associées. Plusieurs entités de données dans le vocabulaire, ainsi que les stratégies et les règles, peuvent ensuite être traitées en parallèle. Pour plus d’informations, consultez Rôles et responsabilités pour la gouvernance des données

Diagramme de la définition d’entités dans un vocabulaire métier commun. Figure 1: exemple de groupe de travail sur la gouvernance des données

L’intégration du glossaire métier du catalogue à d’autres technologies est ensuite nécessaire pour recevoir des noms de données communs cohérents dans toutes les technologies. Voici quelques exemples d’autres technologies à intégrer :

  • Outils ETL (extraire, transformer, charger)
  • Outils de modélisation des données
  • Systèmes de gestion des outils et bases de données BI
  • Gestion des données de référence
  • Outils de virtualisation des données
  • Outils de développement logiciel

Une bonne pratique pour créer un vocabulaire métier commun consiste à créer un modèle de concept de données. Le modèle est une approche descendante qui identifie les concepts de données qui peuvent être utilisés comme entités de données dans un vocabulaire métier commun. Il est ensuite possible d’affecter un groupe de travail de gouvernance des données différent à chaque concept de données (entité) ou à un groupe de concepts de données connexes (zone de sujet). Différents groupes de travail sont affectés pour régir différentes entités de données sur l’ensemble du paysage.

Lorsque vous créez un vocabulaire métier commun, vous pouvez utiliser le logiciel de catalogue de données pour découvrir automatiquement les données qui existent dans plusieurs magasins de données. Il permet d’identifier tous les attributs associés à des entités de données spécifiques. Il s’agit d’une approche ascendante. En utilisant une approche descendante d’un modèle de concept de données pour vous aider à démarrer et une approche de découverte de données automatisée de bas en haut pour identifier les attributs d’une entité de données, plusieurs groupes de travail peuvent générer de façon incrémentielle un vocabulaire métier commun rapidement.

L’utilisation d’un catalogue de données pour la découverte automatisée des données permet de mapper des données disparates à un vocabulaire commun. Le catalogue de données peut vous aider à comprendre où se trouvent les données pour chaque entité de données particulière dans le glossaire métier au sein de l’entreprise.

Stratégies et règles pour régir les données à différents stades du cycle de vie

Les stratégies de gouvernance des données décrivent un ensemble de règles pour contrôler l’intégrité, la qualité, la sécurité d’accès, la confidentialité et la rétention des données. Il existe différents types de stratégies qui incluent :

  • Les stratégies d’intégrité des données, telles que les valeurs valides, l’intégrité référentielle.
  • Stratégies de qualité des données avec règles de normalisation, de nettoyage et de mise en correspondance des données.
  • Stratégies de protection des données avec règles de sécurité d’accès et de confidentialité des données.
  • Stratégies de rétention des données pour gérer le cycle de vie avec des règles de rétention, d’archivage et de sauvegarde. Plusieurs versions d’une stratégie peuvent être nécessaires pour régir les mêmes données dans différentes juridictions.

Le schéma de classification de confidentialité des données se décompose en cinq niveaux de classification :

  • Public
  • À usage interne uniquement
  • Confidentiel
  • Données personnelles sensibles
  • Limitées

Régissez les données en combinant ce schéma de classification avec des stratégies et des règles. Utilisez chacun des cinq niveaux pour étiqueter les données, telles que les données personnelles sensibles. En créant des règles pour les données personnelles sensibles et en joignant ces règles à une stratégie, vous créez une stratégie pour les données personnelles sensibles. Vous pouvez joindre la stratégie à l’étiquette de données personnelles sensibles, puis joindre l’étiquette de données personnelles confidentielles aux données. De cette façon, toutes les données étiquetées comme données personnelles sensibles sont soumises aux mêmes stratégies et règles. Ce processus est connu sous le nom de gestion de la stratégie basée sur les étiquettes. Elle est flexible, car une règle ou une stratégie individuelle peut être modifiée indépendamment. Toutes les données personnelles sensibles étiquetées comme des données sont régies par les nouvelles règles. De même, une étiquette de données personnelles sensible peut être détachée des données et une étiquette confidentielle doit être utilisée à la place. Dans ce cas, les données sont instantanément régies par un nouveau jeu de stratégies et de règles associées à l’étiquette de confidentialité.

Une fois que vous avez défini des stratégies et des règles dans un catalogue de données pour chaque classe dans un schéma de classification de gouvernance des données, elles peuvent être transmises à d’autres technologies à partir d’un catalogue de données, via des API, pour qu’elles entrent en application. Au lieu de cela, une plateforme de gestion des données commune qui peut se connecter à plusieurs magasins de données peut potentiellement les appliquer.

Il doit ensuite être possible de surveiller la qualité, la confidentialité, la sécurité d’accès, l’utilisation, la maintenance des données et la rétention d’entités de données spécifiques tout au long de leur cycle de vie.

Étapes suivantes