Entwerfen von Schulungsdaten für KI-Workloads in Azure
Wenn Sie Daten für KI-Funktionen in Anwendungen entwerfen, sollten Sie sowohl nicht funktionale Anforderungen berücksichtigen, z. B. Operierbarkeit, Kosten und Sicherheit, als auch funktionale Anforderungen, die sich auf Datenaufnahme, Vorbereitung und Validierung beziehen.
Datenentwurf und Anwendungsdesign können nicht entkoppelt werden. Das Anwendungsdesign erfordert, dass Sie Anwendungsfälle, Abfragemuster und Aktualitätsanforderungen verstehen. Um geschäftliche Anforderungen zu erfüllen, die die Notwendigkeit der Verwendung von KI fördern, benötigt die Anwendung möglicherweise Ausgabe von diskriminativen Modellen, generativen Modellen oder einer Kombination von Modelltypen.
Um aussagekräftige Ergebnisse zu erzielen, müssen KI-Modelle trainiert werden. Die Modellschulung umfasst das Unterrichten eines Modells zum Klassifizieren oder Vorhersagen neuer oder unersehener Situationen. Die Schulungsdaten müssen auf den spezifischen Problem- und Arbeitsauslastungskontext zugeschnitten sein.
Die überwachte Schulung umfasst die Bereitstellung des Modells mit beschrifteten Beispielen. Diese Art von Schulung ist nützlich, wenn das gewünschte Ergebnis klar ist. Im Gegensatz dazu ermöglicht das unüberaufsichtigte Lernen das Modell, Muster und Beziehungen innerhalb der Daten zu identifizieren, ohne die erwartete Ausgabe zu leiten. Während der Schulung werden der Algorithmustyp und seine Parameter angepasst, um zu steuern, wie das Modell lernt. Der Ansatz variiert je nach Modelltyp, der neurale Netzwerke, Entscheidungsstrukturen und andere umfassen kann.
Beispielsweise werden Bilderkennungsmodelle in der Regel auf Aufgaben wie Objekterkennung, Gesichtserkennung oder Szenenverständnis trainiert. Sie lernen von kommentierten Bildern, um bestimmte Objekte oder Features zu identifizieren. Weitere gängige Beispiele sind Betrugserkennungsalgorithmen und Preispunktvorhersagemodelle. Diese Modelle lernen aus historischen Finanzdaten, um fundierte Entscheidungen zu treffen.
In diesem Artikel geht es in erster Linie um den vorherigen Anwendungsfall, in dem Modelle trainiert werden, bevor sie der Anwendung aussagekräftige Eingaben geben können. Der Artikel enthält Anleitungen zur Datenerfassung, Verarbeitung, Speicherung, Prüfung und Wartung. Datendesign für explorative Datenwissenschaft oder Business Intelligence über KI wird nicht behandelt. Ziel ist es, Schulungsanforderungen durch Strategien zu unterstützen, die mit den Workloadanforderungen abgestimmt sind, indem Empfehlungen zur Schulungsdatenpipeline einer KI-Workload bereitgestellt werden.
Informationen zum Datenentwurf für KI-Modelle, die während der Ableitung Kontext erfordern, finden Sie unter "Erdungsdatenentwurf".
Wichtig
Erwarten Sie, dass das Datendesign ein iterativer Prozess ist, der auf statistischen Experimenten basiert. Um ein akzeptables Qualitätsniveau zu erreichen, passen Sie Schulungsdaten, deren Verarbeitung, Modellfeatureentwicklung und Modell-Hyperparameter (sofern möglich) an. Diese Experimentierschleife erfolgt in der Regel sowohl während der anfänglichen Modellschulung als auch während der laufenden Verfeinerungsbemühungen, um Daten und Modellabweichungen über die Lebensdauer des Features in der Workload zu behandeln.
Empfehlungen
Hier ist die Zusammenfassung der Empfehlungen in diesem Artikel.
Empfehlung | Beschreibung |
---|---|
Wählen Sie Datenquellen basierend auf Arbeitsauslastungsanforderungen aus. | Berücksichtigen Sie die verfügbaren Ressourcen und ob die Datenquelle Ihnen dabei helfen kann, die akzeptable Datenqualität für Modellschulungen zu erreichen. Behandeln Sie sowohl positive als auch negative Beispiele. Kombinieren Sie verschiedene Datentypen, um eine angemessene Vollständigkeit für Analyse und Modellierung zu erzielen. Berücksichtigen Sie Techniken wie synthetische Minderheitenüberstempelungstechnik (SMOTE) für Datenknappheit oder Ungleichgewichte. ▪ Erfassung und Analyse von Daten |
Führen Sie frühzeitig Datenanalysen zu den gesammelten Daten durch. | Durchführen von Analyseprozessen, z. B. Exploratory Data Analysis (EDA), offline. Berücksichtigen Sie die Kosten und Sicherheitsauswirkungen. Für kleine Datasets ohne Ressourceneinschränkungen können Sie eine Analyse an der Quelle in Betracht ziehen. ▪ Datenspeicher für die Datensammlung |
Verwalten Sie die Datensegmentierung, wenn geschäftliche und technische Anforderungen dafür erforderlich sind. | Wenn Sie Datenquellen verwenden, die unterschiedliche Sicherheitsanforderungen aufweisen, erstellen Sie separate Pipelines für jedes Modell. Richten Sie Zugriffssteuerungen ein, um die Interaktion mit bestimmten Datenuntergruppen einzuschränken. ▪ Datensegmentierung |
Vorverarbeitungsdaten, um sie für Schulungsziele aussagekräftig zu machen. | Verfeinern Sie die Qualität der erfassten Daten, indem Sie Rauschen filtern, die Daten erneut kopieren, Duplikate adressieren und verschiedene Formate standardisieren. ▪ Vorverarbeitung von Daten |
Vermeiden Sie Schulungen zu veralteten Daten. | Überwachen Sie die Datenabweichung und Konzeptabweichung als Teil Ihrer inneren und äußeren Betriebsschleifen, um die Genauigkeit und Zuverlässigkeit von Modellen im Laufe der Zeit aufrechtzuerhalten. Aktualisieren Sie regelmäßig Schulungsdaten mit neuen Beobachtungen. Definieren Sie Bedingungen, die eine Modellumschulung auslösen und die Aktualisierungshäufigkeit bestimmen. ▪ Datenwartung |
Datentypen
Um predictive power in Modellen zu erstellen, müssen Sie Daten sammeln, verarbeiten und in das Modell einspeisen. Dieser Prozess wird in der Regel als Pipeline konzipiert, die in Phasen unterteilt ist. Jede Phase der Pipeline kann sich mit demselben Dataset befassen, kann aber zu unterschiedlichen Zwecken dienen. In der Regel behandeln Sie Daten dieser Typen:
Quelldaten sind Punkt-in-Time-Beobachtungsdaten. Es kann sich auch um Daten handeln, die als potenzielle Eingabe für die Datenpipeline bezeichnet werden können.
Diese Daten werden in der Regel aus der Produktion oder aus einer externen Quelle abgerufen. Diese Datenquellen können sich in Speicherkonten, Datenbanken, APIs oder anderen Quellen befinden. Die Daten können in verschiedenen Datenformaten vorliegen, z. B. OLTP-Datenbanken, unstrukturierte Dokumente oder Protokolldateien. Diese Daten dienen als potenzielle Eingabe für die Datenpipeline.
Schulungsdaten sind eine Teilmenge von Quelldaten, die zum Bereitstellen von Beispielen für das Modell verwendet werden. Bei den Beispielen handelt es sich um beschreibende vorberechnene Daten, mit denen das Modell Muster und Beziehungen erlernen kann. Ohne diese Daten kann das Modell keine relevante Ausgabe generieren.
Auswertungsdaten sind eine Teilmenge der Quelldaten, die zum Überwachen und Überprüfen der Leistung eines Machine Learning-Modells während der Schulung verwendet werden. Es unterscheidet sich von Schulungs- und Testdaten und wird verwendet, um die Leistung des Modells während der Schulungsphase regelmäßig zu bewerten und die Hyperparameteroptimierung zu leiten. Weitere Informationen finden Sie unter Modellauswertung.
Testdaten werden verwendet, um die Vorhersagekraft eines trainierten Modells zu validieren. Diese Daten werden aus Quelldaten entnommen, die nicht für schulungen verwendet wurden. Es enthält Beobachtungen aus der Produktion, sodass der Testprozess eindeutig ist. Aus Sicht des Datenentwurfs müssen Sie diese Daten speichern. Informationen zu Testmodellen finden Sie im Entwurfsbereich "Testen ".
In einigen Fällen können Informationen, die von Benutzern während der Interaktionen mit der Anwendung bereitgestellt werden, schließlich Quelldaten werden. Im Allgemeinen wird empfohlen, dass benutzereingaben auf diese Weise von hoher Qualität sind. Andernfalls kann die Notwendigkeit, Qualitätsprobleme nachgeschaltet zu behandeln, problematisch werden. Anleitungen zur Behandlung von Benutzerdaten werden in diesem Artikel nicht behandelt.
Erfassung und Analyse von Daten
Schulungsdaten werden in einem vordefinierten Fenster gesammelt, das über ausreichende Darstellungen für die Schulung des ausgewählten Modelltyps verfügt. Wenn Sie beispielsweise ein binäres Klassifizierungsmodell trainieren, müssen Schulungsdaten Darstellungen enthalten, was der Fall ist (positive Beispiele) und was nicht der Fall ist (negative Beispiele). Damit Schulungsdaten sinnvoll sind, führen Sie EDA frühzeitig während des Featuredesigns durch.
EDA hilft beim Analysieren von Quelldaten, um Merkmale, Beziehungen, Muster und Qualitätsprobleme zu identifizieren. Sie können EDA direkt im Quelldatenspeicher durchführen oder Daten in zentralisierte Speicher replizieren, z. B. einen Data Lake oder ein Data Warehouse. Das Ergebnis des Prozesses besteht darin, die Datensammlung und -verarbeitung für effektive Modellschulungen zu informieren.
Hinweis
Obwohl EDA ein Vorproduktionsprozess ist, verwendet es Daten, die aus der Produktion stammen. Wenden Sie die gleiche Steuerungsebene auf diesen Prozess an wie für die Produktion.
Im Folgenden finden Sie einige Überlegungen zum Sammeln von Daten zur Vorbereitung auf Modellschulungen.
Datenquellen
Daten können aus diesen Quellen gesammelt werden:
Proprietäre Daten werden erstellt oder im Besitz der Organisation. Es ist nicht für den öffentlichen Verbrauch vorgesehen. Sie dient internen Zwecken.
Öffentliche Quellen sind für jeden zugänglich. Zu diesen Quellen gehören Websites, Forschungspapiere und öffentlich freigegebene Datenbanken. Es kann spezifisch für einen Nischenbereich sein. Beispielsweise werden Inhalte aus Wikipedia und PubMed als öffentlich zugänglich angesehen.
Ihre Auswahl an Datenquellen hängt von Den Arbeitsauslastungsanforderungen, verfügbaren Ressourcen und der Qualität der Daten ab, die für die Schulung des Modells akzeptabel sind. Ungleichgewichte Datasets können zu voreingenommenen Modellen führen, daher müssen Sie die Datensammlung entwerfen, um ausreichende Stichproben repräsentativer Daten zu erhalten. Möglicherweise müssen Sie Minderheitendaten oder Untersample-Mehrheitsdaten überschreiben. Wenn die Daten knapp oder ungleichgewichtig sind, sollten Sie Techniken wie SMOTE und synthetische Datengenerierung in Betracht ziehen.
Datenspeicher für die Datensammlung
Es gibt zwei Hauptoptionen zum Sammeln von Quelldaten:
- Abfragen der Daten an der Datenquelle
- Kopieren der Daten in einen lokalisierten Datenspeicher und anschließendes Abfragen dieses Speichers
Die Auswahl hängt von den Arbeitsauslastungsanforderungen und dem Datenvolumen ab. Wenn Sie über eine relativ kleine Datenmenge verfügen, kann das Quellsystem Ihre rohen Abfragen direkt verarbeiten. Die gängige Methode besteht jedoch darin, den lokalisierten Speicher abzufragen und zu analysieren.
Kompromiss. Obwohl lokalisierte Datenspeicher die Analyse und den Schulungsprozess vereinfachen können, müssen Sie auch Kosten, Sicherheit und Modellanforderungen ausgleichen.
Das Duplizieren von Daten verursacht Speicher- und Berechnungskosten. Die Aufrechterhaltung einer separaten Kopie erfordert zusätzliche Ressourcen. Lokale Kopien können vertrauliche Informationen enthalten. In diesem Fall müssen Sie die Daten durch regelmäßige Sicherheitsmaßnahmen schützen.
Wenn Sie Produktionsdaten für Schulungsdaten verwenden, muss sie allen ursprünglichen Datenklassifizierungseinschränkungen dieser Daten unterliegen.
Daten können dem Schulungsprozess (Pushmodus) bereitgestellt werden, oder der Prozess selbst kann die Datenquelle (Pullmodus) abfragen. Die Wahl hängt von Besitz-, Effizienz- und Ressourceneinschränkungen ab.
Wenn Daten an die Arbeitsauslastung übertragen werden, liegt es in der Verantwortung des Datenquellenbesitzers, neue Daten bereitzustellen. Der Workloadbesitzer bietet einen geeigneten Speicherort in ihrem lokalisierten Datenspeicher zum Speichern der Daten. Dieser Ansatz gilt für proprietäre Daten, die sich im Besitz der Organisation befinden, nicht auf öffentliche Quellen.
Es gibt zwei Ansätze, die Sie zum Abrufen von Daten verwenden können. Bei einem Ansatz fragt die Workload nach dem Datenspeicher ab, ruft die erforderlichen Daten ab und platziert sie im lokalisierten Speicher. Eine weitere Möglichkeit besteht darin, Echtzeitabfragen im Arbeitsspeicher auszuführen. Die Entscheidung hängt vom Datenvolumen und verfügbaren Computeressourcen ab. Bei kleineren Datasets reicht der Abruf im Arbeitsspeicher möglicherweise für modellbasierte Schulungen aus.
Unabhängig davon, ob Sie den Push- oder Pullmodus verwenden, vermeiden Sie Schulungsmodelle auf veralteten Daten. Die Häufigkeit der Datenaktualisierungen sollte den Workloadanforderungen entsprechen.
Datensegmentierung
Workloadspezifische Anforderungen erfordern möglicherweise die Datensegmentierung. Hier sind einige mögliche Anwendungsfälle:
Sicherheitsanforderungen fördern häufig Segmentierungsentscheidungen. Beispielsweise können regulatorische Einschränkungen verhindern, dass Daten in geopolitische Regionen exportiert werden. Wenn Ihr Anwendungsdesign die Verwendung separater Modelle zulässt, enthält das Datendesign separate Datenpipelinen für jedes Modell.
Wenn jedoch ein einzelnes Modell verwendet wird, werden segmentierte Datenquellen in dieses Modell eingespeist. Sie müssen das Modell auf Daten aus beiden Regionen trainieren, was möglicherweise komplexitätsgefährdend ist.
Unabhängig davon, ob die Anwendung ein einzelnes Modell oder mehrere Modelle verwendet, behalten Sie Sicherheitsmaßnahmen für jedes Datensegment bei, sodass sie mit der gleichen Genauigkeit wie Daten am Ursprung geschützt ist.
Die Daten-Aktualitätsrate kann ein Faktor zum Trennen von Daten sein. Daten aus unterschiedlichen Quellen können in unterschiedlichen Zeitintervallen aktualisiert werden. Wenn sich die Daten ändern, wird eine Umschulung erforderlich. Die Segmentierung ermöglicht eine präzise Kontrolle des Datenlebenszyklus. Erwägen Sie die Verwendung separater Tabellen oder Pipelines für verschiedene Datensegmente.
Unabhängig vom Anwendungsfall sind Zugriffssteuerungen bei segmentierten Daten schlüssel. Datenexperten, wie Dateningenieure und Datenwissenschaftler, untersuchen verfügbare Quelldaten, um Muster und Beziehungen zu verstehen. Ihre Erkenntnisse tragen zu Schulungsmodellen bei, die Ergebnisse vorhersagen. Richten Sie Zugriffssteuerungen ein, um sicherzustellen, dass nur autorisierte Benutzer mit bestimmten Datenuntergruppen interagieren können. Wenden Sie die geringsten Rechte auf Daten an, die als relevant betrachtet werden. Arbeiten Sie mit Datenbesitzern zusammen, um geeignete Berechtigungen einzurichten.
Vorabaufbereitung der Daten
In einem realen Szenario werden Quelldaten nicht einfach nur für KI-Szenarien gespeichert. Es gibt einen Zwischenprozess, der Daten für die Schulung vorbereitet. In dieser Phase werden Daten von Rauschen entfernt, wodurch sie für den Verbrauch nützlich sind. Bei der Behandlung von Quelldaten beteiligen sich Datenwissenschaftler an einem Prozess der Erkundung, Experimentierung und Entscheidungsfindung. Ihr Hauptziel ist es, Teile der Quelldaten zu identifizieren und zu extrahieren, die Vorhersagekraft enthalten.
Die Vorverarbeitungslogik hängt von dem Problem, dem Datentyp und den gewünschten Ergebnissen ab. Im Folgenden finden Sie einige gängige Verfahren für die Vorverarbeitung. Die Liste ist nicht vollständig. Die tatsächlichen Kriterien für Ihre Arbeitsauslastung werden von den Geschäftlichen Anforderungen gesteuert.
Qualität. Die Vorverarbeitung kann Ihnen dabei helfen, sicherzustellen, dass Schulungsdaten von Rauschen entfernt werden. Ziel ist es, sicherzustellen, dass jede Zeile in Ihren Schulungsdaten eine klare Beobachtung oder ein gutes Beispiel darstellt, das für Ihren Anwendungsfall relevant ist, und Beobachtungen ohne Qualität oder Vorhersagekraft zu beseitigen. Wenn Sie z. B. Produktrezensionen zusammensuchen, können Sie daten entfernen, die zu kurz sind. Sie müssen ermitteln, welche Datenqualität aussagekräftige prädiktive Ergebnisse erzeugt.
Rescoping. Quelldatenfelder, die zu spezifisch sind, können Vorhersagekraft einschränken. Betrachten Sie z. B. ein Adressfeld. Das Erweitern des Bereichs von vollständiger Adresse (Hausnummer und Straßenname) auf eine höhere Ebene, z. B. Stadt, Bundesland oder Land/Region, kann relevanter sein.
Deduplizierung. Die Beseitigung von Redundanz kann sicherstellen, dass Ihre Schulungsdaten korrekt und repräsentativ bleiben. In bestimmten Fällen ist die Häufigkeit, mit der eine Beobachtung erfolgt, nicht relevant. Wenn Sie z. B. Protokolle scannen, wenn ein Protokolleintrag 1.000 Mal angezeigt wird, gibt dies die Häufigkeit an. Es bedeutet nicht unbedingt, dass es sich um einen schwerwiegenderen Fehler als ein Protokoll handeln muss, das nur einmal aufgetreten ist. Diese Art von Redundanz kann Rauschen verursachen.
Vertrauliche Datenverarbeitung. Entfernen Sie personenbezogene Daten, es sei denn, es ist absolut wichtig, dass die Prädiktivmacht des Modells durch anonymisierung erreicht werden kann. Schulungsdaten sollten wirksam sein, ohne den Datenschutz zu beeinträchtigen. Wenn die Daten Einen Wert liefern, müssen Sie die ethischen Überlegungen zur Behandlung vertraulicher Daten kennen. Weitere Informationen finden Sie unter Verantwortungsvolle KI.
Standardisierte Transformation. Domänenexperten betrachten die vorstehenden Techniken als Kernbestandteil des Feature Engineerings. Breiter Umfang und vielfältige Quelldaten müssen schließlich in Featurespeicher zusammengeführt werden, in denen Features (z. B. in Featuretabellen) für den expliziten Zweck von Schulungsmodellen organisiert sind. Nachdem Sie predictive data for training ausgewählt haben, transformieren Sie die Daten in ein standardisiertes Format. Standardisierung gewährleistet auch die Kompatibilität mit dem Schulungsmodell.
Das Konvertieren von Bildern in Textdarstellungen ist eine Form der Transformation. Beispielsweise können Sie gescannte Dokumente oder Bilder in maschinenlesbaren Text konvertieren.
Um die Kompatibilität mit Modellen sicherzustellen, müssen Sie möglicherweise Ausrichtungen oder Seitenverhältnisse von Bildern entsprechend den Erwartungen des Modells anpassen.
Hinweis
Das Mischen großer Mengen strukturierter und unstrukturierter Daten kann die Verarbeitungszeit erhöhen. Workloadteams sollten die Auswirkungen der Verarbeitung verschiedener Formate messen. Da das Zeitfenster zwischen den Umschulungsbemühungen kürzer wird, wird die zeitaufwendigere Vorverarbeitung.
Beibehaltung von Daten
Nachdem Sie ein Modell trainiert haben, bewerten Sie, ob die für schulungen verwendeten Daten gelöscht werden sollen, und erstellen Sie das Modell für das nächste Schulungsfenster neu.
Wenn die Daten relativ unverändert bleiben, ist eine Umschulung möglicherweise nicht erforderlich, es sei denn, die Modellabweichung tritt auf. Wenn die Genauigkeit der Vorhersage abnimmt, müssen Sie das Modell neu trainieren. Sie können die Daten erneut aufnehmen, vorverarbeiten und das Modell erstellen. Dieser Handlungsverlauf ist am besten geeignet, wenn seit dem letzten Schulungsfenster ein erhebliches Delta in Daten vorhanden ist. Wenn eine große Menge an Daten vorhanden ist und sich nicht viel geändert hat, müssen Sie das Modell möglicherweise nicht vorverarbeiten und neu erstellen. In diesem Fall speichern Sie Daten, führen Sie direkte Aktualisierungen durch, und trainieren Sie das Modell erneut. Entscheiden Sie, wie lange Sie Schulungsdaten aufbewahren möchten.
Löschen Sie im Allgemeinen Daten aus Featurespeichern, um die Clutter- und Speicherkosten für Features zu reduzieren, die eine schlechte Leistung aufweisen und für aktuelle oder zukünftige Modelle nicht mehr relevant sind. Wenn Sie Daten aufbewahren, gehen Sie davon aus, Kosten zu verwalten und Sicherheitsprobleme zu beheben, die typische Bedenken bei der Datenduplizierung sind.
Datenherkunftsverfolgung
Die Datenlinie bezieht sich auf das Nachverfolgen des Pfads von Daten aus der Quelle zur Verwendung in der Modellschulung. Das Nachverfolgen der Datenlinie ist für die Erläuterung von wesentlicher Bedeutung. Obwohl Benutzer möglicherweise keine detaillierten Informationen zu Datenherkunft benötigen, sind diese Informationen für interne Datengovernanceteams von entscheidender Bedeutung. Linienmetadaten stellen Transparenz und Rechenschaftspflicht sicher, auch wenn sie nicht direkt vom Modell verwendet wird. Dies ist beim Debuggen nützlich. Außerdem können Sie ermitteln, ob Verzerrungen während der Datenvorverarbeitung eingeführt werden.
Verwenden Sie Plattformfeatures für die Nachverfolgung von Linien, wenn Möglich. Beispielsweise ist Azure Machine Learning in Microsoft Purview integriert. Diese Integration bietet Ihnen Zugriff auf Features für die Datenermittlung, die Liniennachverfolgung und die Governance im Rahmen des MLOps-Lebenszyklus.
Datenpflege
Alle Modelle können im Laufe der Zeit veraltet werden, was dazu führt, dass die Vorhersagekraft eines Modells oder die Relevanz verfallen. Mehrere externe Änderungen können zu Verfall führen, einschließlich der Verschiebung des Benutzerverhaltens, der Marktdynamik oder anderer Faktoren. Modelle, die vor einiger Zeit trainiert wurden, sind aufgrund der sich ändernden Umstände möglicherweise weniger relevant. Um Vorhersagen mit besserer Genauigkeit zu erzielen, benötigen Sie aktuelle Daten.
Übernehmen neuerer Modelle. Um die Relevanz sicherzustellen, benötigen Sie eine Betriebsschleife, die die Modellleistung kontinuierlich auswertet und neuere Modelle berücksichtigt, wodurch die Datenpipeline minimal störend bleibt. Alternativ können Sie sich auf eine größere Änderung vorbereiten, die eine Neugestaltung des Datenlebenszyklus und der Pipeline beinhaltet.
Wenn Sie ein neues Modell auswählen, müssen Sie nicht unbedingt mit einem neuen Dataset beginnen. Die vorhandenen Beobachtungen, die für die Ausbildung verwendet werden, können auch während eines Modellwechsels nützlich bleiben. Obwohl neue Modelle schmalere Szenarien zeigen können, bleibt der grundlegende Prozess ähnlich. Datenverwaltungsansätze wie Featurespeicher und Datengitter können die Einführung neuer Machine Learning-Modelle optimieren.
Triggerbasierte im Vergleich zu Routinevorgängen. Überlegen Sie, ob die Modellumschulung durch bestimmte Ereignisse oder Bedingungen ausgelöst werden soll. Beispielsweise kann die Verfügbarkeit neuer, relevanterer Daten oder ein Rückgang der Relevanz unterhalb eines festgelegten Basisplans eine Neuschulung auslösen. Die Vorteile dieses Ansatzes sind Reaktionsfähigkeit und zeitnahe Updates.
Wartung kann auch in regelmäßigen festen Intervallen geplant werden, z. B. täglich oder wöchentlich. Berücksichtigen Sie bei fehlsicheren Vorgängen beide Ansätze.
Entfernen von Daten. Entfernen Sie Daten, die nicht mehr für schulungen verwendet werden, um die Ressourcennutzung zu optimieren und das Risiko zu minimieren, veraltete oder irrelevante Daten für Modellschulungen zu verwenden.
Das Recht auf Vergessenwerden bezieht sich auf das Recht einer Person, ihre personenbezogenen Daten von Onlineplattformen oder Datenbanken zu entfernen. Achten Sie darauf, dass Richtlinien vorhanden sind, um personenbezogene Daten zu entfernen, die für schulungen verwendet werden.
Datenaufbewahrung In einigen Situationen müssen Sie ein vorhandenes Modell neu erstellen. Für die Notfallwiederherstellung sollte ein Modell beispielsweise genau wie vor dem katastrophalen Ereignis neu generiert werden. Es wird empfohlen, dass Sie über eine sekundäre Datenpipeline verfügen, die den Workloadanforderungen der primären Pipeline folgt, z. B. zur Behandlung von Modellverfall, regelmäßigen Updates über Trigger-basierte oder Routinevorgänge und andere Wartungsaufgaben.
Kompromiss. Die Datenwartung ist teuer. Dazu gehören das Kopieren von Daten, das Erstellen redundanter Pipelines und das Ausführen von Routineprozessen. Denken Sie daran, dass regelmäßige Schulungen die Antwortqualität möglicherweise nicht verbessern. Es bietet nur Sicherheit gegen Veraltetkeit. Bewerten Sie die Bedeutung von Datenänderungen als Signal, um die Häufigkeit der Aktualisierungen zu bestimmen.
Stellen Sie sicher, dass die Datenwartung im Rahmen von Modellvorgängen erfolgt. Sie sollten Prozesse einrichten, um Änderungen über die Automatisierung so weit wie möglich zu verarbeiten und die richtigen Tools zu verwenden. Weitere Informationen finden Sie unter MLOps und GenAIOps für AI-Workloads in Azure.