Partager via


Qu’est-ce qu’un produit de données?

Chaque application crée et stocke des données de façon temporaire ou permanente. De nombreuses applications créent et enregistrent également des données à des fins de gestion opérationnelle, telles que la journalisation des erreurs et la surveillance de l’intégrité. Pour consommer et traiter les données produites par ces applications, les équipes chargées des données centralisées utilisent des processus d'extraction, de transformation et de chargement (ETL). Les équipes chargées de l'exploitation des applications disposent souvent d'autres flux de traitement pour les données telles que les données d'intégrité des applications et les données de suivi de l'état des indicateurs clés de performance.

Pour l'intégration des données, une approche traditionnelle en cascade dans laquelle les équipes suivent un ordre spécifique des phases n'est pas idéale. Elle peut entraîner des lacunes dans les connaissances, des problèmes d'appropriation et des conflits de communication qui affectent la qualité, l'actualité et la valeur de vos données pour les utilisateurs. Les équipes d’application sont responsables des performances et de la réussite des applications. Lorsqu'elles utilisent une approche en cascade, elles apportent des modifications aux processus en aval qui appartiennent à d'autres équipes. Parfois, ces changements peuvent affecter d'autres domaines. Par exemple, un changement mineur en amont peut modifier radicalement la tendance d'un ICP. Ces conflits peuvent affecter votre capacité à prendre des décisions critiques.

Les données en tant que produit

Pour éviter ces problèmes, l'approche du maillage des données adopte le concept de données en tant que produit. Les propriétaires et les équipes d'application traitent les données comme un produit à part entière dont ils sont responsables, plutôt que comme un sous-produit du processus d'une autre équipe. Les applications et les tâches de service de données analytiques relèvent des domaines de responsabilité.

Les produits de données sont créés spécifiquement pour la consommation analytique. Ils ont des formes définies et convenues, des interfaces de consommation et des cycles de maintenance et d’actualisation, qui sont tous documentés.

Les produits de données sont des ressources de données de domaine traitées ou des ensembles de données que vous pouvez partager avec des processus en aval par le biais d'interfaces dans un objectif de niveau de service. Sauf obligation contraire, vous devez traiter, mettre en forme, nettoyer, agréger et normaliser vos données brutes afin de respecter les normes de qualité convenues avant de les mettre à disposition.

Les sections suivantes décrivent les caractéristiques communes des bons produits de données.

Caractéristiques des produits de données

Veillez à ce que vos produits de données soient

  • Découvrables, compréhensibles et dignes de confiance. Pour faciliter la découverte et la clarté, partagez et mettez à jour les informations sur chaque produit de données, ses données, sa signification, le format de ses données et son cycle de rafraîchissement. Communiquez en temps utile les modifications de données ou de forme aux consommateurs en aval. Pour garantir la fiabilité, les interfaces assurent une rétrocompatibilité limitée dans le temps pour les formes des produits de données.

  • Adressable, accessible en mode natif et sécurisé. Pour assurer l'adressabilité, créez des processus définis pour localiser et accéder à chaque produit de données. Mettez en œuvre des mesures de sécurité pour les différentes exigences d'accès. Majorez la mentalité de propriété de votre domaine de données en passant de la garde des données à la fourniture de données avec des précautions de sécurité bien définies. Les interfaces d'accès bien documentées peuvent varier d'une technologie à l'autre. Les interfaces couramment utilisées pour les produits de données nativement accessibles sont les API, les utilisateurs de bases de données, les tables ou les vues, et les fichiers avec les droits d'accès nécessaires.

  • Interopérabilité, véracité et valeur. Pour assurer l'interopérabilité, veillez à ce que vos données respectent des normes communes définies, telles que des valeurs ayant le même nom et le même type de données. Par exemple, vous pouvez nommer une colonne contenant les données d'identification du client CustomerID dans chaque produit de données, et ses données peuvent toujours être des nombres entiers. Les produits de données apportent une valeur ajoutée aux clients et vous pouvez les utiliser comme sources en amont pour de nouveaux produits de données dans le même domaine ou dans des domaines différents. Mais vous ne pouvez pas simplement transporter et copier le même produit de données à plusieurs endroits. Chaque produit de données provenant d’un produit de données précédent doit fournir de nouvelles valeurs et informations aux consommateurs en aval. Les produits de données doivent également fournir des données véridiques et exactes.

Utilisez des produits de données bien conçus et bien entretenus, ainsi que leurs interfaces, afin d'éviter la duplication des données et de créer une source de vérité unique et native.

Recommandations en matière de conception de produits de données

Pour répondre aux exigences de service des produits de données, vos équipes de domaine doivent acquérir un nouvel ensemble de compétences et utiliser de nouveaux outils et plateformes.

Pour créer les applications de données et produire ou servir les produits de données, équipez entièrement vos équipes d'application de domaine. Vos équipes peuvent utiliser un ensemble de technologies familières pour créer des produits de données. Elles peuvent également préférer disposer de leur propre instance Spark ou moteur de pipeline. Par exemple, un grand domaine qui sert de nombreux produits de données peut traiter et servir des produits de données à partir de sa propre instance Azure Synapse Analytics. Les petites organisations et les petits domaines de grandes organisations pourraient développer et exécuter leurs applications de données sur une plateforme partagée, telle qu'une instance Azure Data Factory, Azure Synapse Analytics ou Azure Databricks située au niveau central.

Assurez-vous que vos produits de données présentent les caractéristiques communes qui sont décrites dans cet article, que votre référentiel de traçabilité reflète la traçabilité de votre application de données et que vous régissez votre mise en œuvre et votre accès.

Le diagramme suivant présente un exemple de disposition logique d'application de données dans un domaine et une zone d'atterrissage.

Diagramme qui montre une disposition logique d'application de données possible dans un domaine et une zone d'atterrissage.

Conseils sur les produits et les applications de données pour Azure

Vous pouvez positionner des approches pour votre environnement d'application de données dans des zones d'atterrissage de données Azure si vos équipes d'application de domaine utilisent une plateforme et un ensemble de services partagés.

Diagramme qui montre le groupe de ressources data-application-rg du contexte des applications de données et le groupe de ressources shared-application-rg du contexte des services de base.

Pour connaître les modèles de modèles d'applications de données pour les zones d'atterrissage de données Azure, consultez Exemples d'applications de données.

Étape suivante