Partager via


Opérationnaliser le maillage de données pour l’ingénierie des fonctionnalités pilotées par le domaine IA/ML

Le maillage de données aide les organisations à passer d’un lac de données ou d’un entrepôt de données centralisé à une décentralisation pilotée par le domaine des données analytiques soulignée par quatre principes : Propriété du domaine, Données en tant que produit, plateforme de données libre-service et gouvernance de calcul fédérée. Le maillage de données offre comme avantages une propriété des données distribuées et une amélioration de la qualité et de la gouvernance des données qui accélère l’activité et réduit le temps de valorisation pour les organisations.

Implémentation du maillage de données

Une implémentation de maillage de données classique inclut des équipes de domaine avec des ingénieurs données qui créent des pipelines de données. L’équipe gère des magasins de données opérationnelles et analytiques, tels que des lacs de données, des entrepôts de données ou des data lakehouses. Ils libèrent les pipelines en tant que produits de données pour que les autres équipes de domaine ou les équipes de science des données puissent les utiliser. D’autres équipes consomment les produits de données à l’aide d’une plateforme de gouvernance des données centrale, comme illustré dans le diagramme suivant.

diagramme architectural montrant une implémentation de maillage de données.

Le maillage de données est clair sur la manière dont les produits de données fournissent des ensembles de données transformés et agrégés pour l'intelligence d'affaires. Mais il n’est pas explicite sur l’approche que les organisations doivent prendre pour créer des modèles IA/ML. Il n’existe pas non plus de conseils sur la structure de leurs équipes de science des données, la gouvernance des modèles IA/ML et la façon de partager des modèles IA/ML ou des fonctionnalités entre les équipes de domaine.

La section suivante présente quelques stratégies que les organisations peuvent utiliser pour développer des fonctionnalités IA/ML dans le maillage de données. Et vous voyez une proposition pour une stratégie sur l’ingénierie des fonctionnalités pilotées par le domaine ou le maillage de fonctionnalités.

Stratégies IA/ML pour le maillage de données

Une stratégie courante est que l’organisation adopte des équipes de science des données en tant que consommateurs de données. Ces équipes accèdent à différents produits de données de domaine dans le maillage de données en fonction du cas d’usage. Ils effectuent l’exploration des données et l’ingénierie des fonctionnalités pour développer et créer des modèles IA/ML. Dans certains cas, les équipes de domaine développent également leurs propres modèles IA/ML à l’aide de leurs données et des produits de données d’autres équipes pour étendre et dériver de nouvelles fonctionnalités.

l’ingénierie des caractéristiques est le cœur de la création de modèles et est généralement complexe et nécessite une expertise de domaine. Cette stratégie peut prendre du temps, car les équipes de science des données doivent analyser différents produits de données. Ils n’ont peut-être pas de connaissances complètes sur le domaine pour créer des fonctionnalités de haute qualité. L’absence de connaissances sur le domaine peut entraîner des efforts d’ingénierie de fonctionnalités en double entre les équipes de domaine. En outre, des problèmes tels que la reproductibilité du modèle IA/ML en raison d’ensembles de fonctionnalités incohérents entre les équipes. Les équipes de science des données ou de domaine doivent actualiser en permanence les fonctionnalités à mesure que de nouvelles versions des produits de données sont publiées.

Une autre stratégie est que les équipes de domaine publient des modèles IA/ML dans un format tel qu’Open Neural Network Exchange (ONNX), mais ces résultats sont des boîtes noires et la combinaison de modèles IA/ML ou de fonctionnalités entre les domaines serait difficile.

Existe-t-il un moyen de décentraliser la création de modèles IA/ML entre les équipes de science des données et de domaine pour relever les défis ? La stratégie d’ingénierie de caractéristiques basée sur un domaine proposée ou la stratégie de maillage de fonctionnalités est une option.

Ingénierie des fonctionnalités pilotées par le domaine ou maillage de fonctionnalités

La stratégie d’ingénierie de fonctionnalités pilotée par le domaine ou la stratégie de maillage de fonctionnalités offre une approche décentralisée du bâtiment de modèles IA/ML dans un paramètre de maillage de données. Le diagramme suivant montre la stratégie et la façon dont elle traite les quatre principes principaux du maillage de données.

diagramme architectural montrant l’ingénierie des caractéristiques pilotées par le domaine et la stratégie de maillage de caractéristiques.

Ingénierie des fonctionnalités de propriété de domaine par les équipes de domaine

Dans cette stratégie, l’organisation associe des scientifiques des données à des ingénieurs de données d’une équipe de domaine pour exécuter l’exploration des données sur des données propres et transformées, par exemple un lac de données. L’ingénierie génère des caractéristiques qui sont stockées dans un magasin de caractéristiques. Un magasin de fonctionnalités est un référentiel de données qui fournit des fonctionnalités pour l’apprentissage et l’inférence et permet de suivre les versions, métadonnées et statistiques des fonctionnalités. Cette fonctionnalité permet aux scientifiques des données de l’équipe du domaine de travailler en étroite collaboration avec les experts du domaine et de maintenir les fonctionnalités actualisées en tant que modifications de données dans le domaine.

Données en tant que produit : Ensembles de fonctionnalités

Les fonctionnalités générées par l’équipe de domaine, appelées fonctionnalités de domaine ou locales, sont publiées dans le catalogue de données dans la plateforme de gouvernance des données en tant qu’ensembles de fonctionnalités. Ces ensembles de fonctionnalités sont utilisés par les équipes de science des données ou d’autres équipes de domaine pour la création de modèles IA/ML. Pendant le développement de modèles IA/ML, les équipes de science des données ou de domaine peuvent combiner des fonctionnalités de domaine pour produire de nouvelles fonctionnalités, appelées fonctionnalités partagées ou globales. Ces fonctionnalités partagées sont publiées dans le catalogue des ensembles de fonctionnalités à des fins de consommation.

Plateforme de données libre-service et gouvernance des calculs fédérés : normalisation des fonctionnalités et qualité

Cette stratégie peut entraîner l’adoption d’une pile technologique différente pour les pipelines d’ingénierie de fonctionnalités et les définitions de fonctionnalités incohérentes entre les équipes de domaine. Les principes de la plateforme de données en libre-service garantissent que les équipes de domaine utilisent l’infrastructure et les outils courants pour créer les pipelines d’ingénierie des fonctionnalités et appliquer le contrôle d’accès. Le principe de gouvernance du calcul fédéré garantit l’interopérabilité des ensembles de fonctionnalités par le biais de la normalisation et des vérifications globales de la qualité des fonctionnalités.

L’utilisation de l’ingénierie de fonctionnalités pilotée par le domaine ou la stratégie de maillage de fonctionnalités offre une approche décentralisée du modèle IA/ML pour les organisations afin de réduire le temps de développement de modèles IA/ML. Cette stratégie permet de maintenir la cohérence des fonctionnalités entre les équipes de domaine. Il évite la duplication des efforts et entraîne des fonctionnalités de haute qualité pour des modèles IA/ML plus précis, ce qui augmente la valeur de l’entreprise.

Implémentation de maillage de données dans Azure

Cet article décrit les concepts relatifs à l’opérationnalisation de l’IA/ML dans un maillage de données et ne couvre pas les outils ou les architectures pour créer ces stratégies. Azure propose des offres de magasin de caractéristiques telles qu’Azure Databricks et Feathr de LinkedIn. Vous pouvez développer des connecteurs personnalisés Microsoft Purview pour gérer et gouverner les magasins de caractéristiques.

Étapes suivantes