Freigeben über


Operationalisieren eines Datengittermodells für die domänengesteuerte KI/ML-Featurisierung

Ein Datengittermodell unterstützt Organisationen bei der Umstellung von einem zentralisierten Data Lake oder Data Warehouse auf eine domänengesteuerte Dezentralisierung von Analysedaten auf der Grundlage von vier Prinzipien: Domänenbesitz, Daten als Produkt, Self-Service-Datenplattform und rechenbezogene Verbundgovernance. Die Vorteile eines Datengittermodells sind verteilter Datenbesitz sowie eine bessere Datenqualität und -governance, was schnellere geschäftliche Abläufe und eine schnellere Amortisierung für Organisationen ermöglicht.

Implementierung eines Datengittermodells

An einer typischen Implementierung eines Datengittermodells sind Domänenteams mit technischen Fachkräften für Daten beteiligt, die Datenpipelines erstellen. Das Team verwaltet operative und analytische Datenspeicher wie Data Lakes, ein Data Warehouse oder ein Data Lakehouse. Sie geben die Pipelines als Datenprodukte frei, die von anderen Domänenteams oder Data Science-Teams genutzt werden können. Andere Teams nutzen die Datenprodukte über eine zentrale Datengovernanceplattform, wie im folgenden Diagramm zu sehen:

Architekturdiagramm: Implementierung eines Datengittermodells

Bei einem Datengittermodell ist klar, wie Datenprodukte transformierte und aggregierte Datasets für Business Intelligence bereitstellen. Der Ansatz, dem Organisationen bei der Erstellung von KI/ML-Modellen folgen sollten, ist allerdings nicht explizit vorgegeben. Und es gibt auch keine Anleitungen zur Strukturierung der Data Science-Teams, zur Governance für KI/ML-Modelle und zum Austausch von KI/ML-Modellen oder -Features zwischen Domänenteams.

Im folgenden Abschnitt werden einige Strategien beschrieben, die Organisationen bei der Entwicklung von KI/ML-Funktionen innerhalb eines Datengittermodells nutzen können. Außerdem finden Sie hier eine Strategieempfehlung für eine domänengesteuerte Featurisierung oder für ein Featuregittermodell.

KI/ML-Strategien für ein Datengittermodell

Eine gängige Strategie für Organisationen besteht darin, Data Science-Teams als Datenconsumer einzuführen. Diese Teams greifen je nach Anwendungsfall auf verschiedene Domänendatenprodukte im Datengittermodell zu. Sie untersuchen Daten und entwickeln Features, um KI/ML-Modelle zu entwickeln und zu erstellen. In einigen Fällen entwickeln Domänenteams auch eigene KI/ML-Modelle, indem sie ihre Daten und das Datenprodukt anderer Teams verwenden, um Features zu erweitern und neue Features abzuleiten.

Featurisierung ist das Herzstück der Modellerstellung. Sie ist in der Regel komplex und erfordert Domänenkenntnisse. Die oben genannte Strategie kann zeitaufwendig sein, da Data Science-Teams verschiedene Datenprodukte analysieren müssen. Möglicherweise verfügen sie nicht über umfassende Domänenkenntnisse, um hochwertige Features erstellen zu können. Unzureichende Domänenkenntnisse können zu doppelter Featurisierungsarbeit zwischen Domänenteams führen. Gleiches gilt für Probleme wie die Reproduzierbarkeit von KI/ML-Modellen aufgrund von inkonsistenten Featuresätzen zwischen Teams. Data Science- oder Domänenteams müssen Features kontinuierlich aktualisieren, wenn neue Versionen von Datenprodukten veröffentlicht werden.

Eine andere Strategie ist, dass Domänenteams KI/ML-Modelle in einem Format wie ONNX (Open Neural Network Exchange) veröffentlichen. Diese Ergebnisse sind jedoch nicht transparent, und es ist schwierig, KI/ML-Modelle oder -Features domänenübergreifend zu kombinieren.

Gibt es eine Möglichkeit, die Erstellung von KI/ML-Modellen über Domänen- und Data Science-Teams hinweg zu dezentralisieren, um diese Herausforderungen zu meistern? Die vorgeschlagene domänengesteuerte Featurisierungs- oder Featuregittermodell-Strategie ist eine Option.

Domänengesteuerte Featurisierungs- oder Featuregittermodell-Strategie

Die domänengesteuerte Featurisierungs- oder Featuregittermodell-Strategie bietet einen dezentralen Ansatz für die Erstellung von KI/ML-Modellen in einer Datengittermodell-Umgebung. Das folgende Diagramm zeigt die Strategie und deren Umgang mit den vier Hauptprinzipien des Datengittermodells:

Architekturdiagramm: Domänengesteuerte Featurisierungs- oder Featuregittermodell-Strategie

Domänenbesitz: Featurisierung nach Domänenteams

Bei dieser Strategie fasst die Organisation wissenschaftliche und technische Fachkräfte für Daten in einem Domänenteam zusammen, um bereinigte und transformierte Daten (beispielsweise in einem Data Lake) zu untersuchen. Die bei der Featurisierung generierten Features werden in einem Featurespeicher gespeichert. Der Featurespeicher ist ein Datenrepository, das Features für Trainingszwecke und für Rückschlüsse bereitstellt und zur Nachverfolgung von Featureversion, Metadaten und Statistiken beiträgt. Dank dieser Funktion können die wissenschaftlichen Fachkräfte für Daten im Domänenteam eng mit Domänenexperten zusammenarbeiten und die Features bei Datenänderungen in der Domäne auf dem neuesten Stand halten.

Daten als Produkt: Featuresätze

Vom Domänenteam generierte Features werden als Domänenfeatures oder lokale Features bezeichnet und im Datenkatalog der Datengovernanceplattform als Featuresätze veröffentlicht. Diese Featuresätze können von Data Science-Teams oder von anderen Domänenteams zum Erstellen von KI/ML-Modellen genutzt werden. Im Zuge der Entwicklung von KI/ML-Modellen können die Data Science- oder Domänenteams Domänenfeatures miteinander kombinieren, um neue Features zu generieren. Diese werden als freigegebene oder globale Features bezeichnet. Diese freigegebenen Features werden zur weiteren Nutzung wieder im Featuresatzkatalog veröffentlicht.

Self-Service-Datenplattform und rechenbezogene Verbundgovernance: Standardisierung und Qualität von Features

Diese Strategie kann zur Einführung eines anderen Technologiestapels für Featurisierungspipelines und zu inkonsistenten Featuredefinitionen zwischen Domänenteams führen. Die Prinzipien der Self-Service-Datenplattform stellen sicher, dass Domänenteams eine gemeinsame Infrastruktur und gemeinsame Tools verwenden, um die Featurisierungspipelines zu erstellen und die Zugriffssteuerung zu erzwingen. Das Prinzip der rechenbezogenen Verbundgovernance stellt durch globale Standardisierung und Überprüfungen der Featurequalität die Interoperabilität von Featuresätzen sicher.

Durch die domänengesteuerte Featurisierungs- oder Featuregittermodell-Strategie erhalten Organisationen einen dezentralen KI/ML-Modellerstellungsansatz und können so Zeit bei der Entwicklung von KI/ML-Modellen sparen. Diese Strategie trägt zur Gewährleistung von Featurekonsistenz in Domänenteams bei. Sie vermeidet doppelte Arbeit und führt zu hochwertigen Features für genauere KI/ML-Modelle, die den Wert für das Unternehmen erhöhen.

Implementierung eines Datengittermodells in Azure

In diesem Artikel werden die Konzepte rund um die Operationalisierung von KI/ML in einem Datengittermodell beschrieben. Die Tools oder Architekturen für den Aufbau der entsprechenden Strategien werden allerdings nicht behandelt. Azure bietet Featurespeicher wie Azure Databricks und Feathr von LinkedIn. Sie können benutzerdefinierte Microsoft Purview-Connectors zum Verwalten und Steuern von Featurespeichern entwickeln.

Nächste Schritte