MLOps und GenAIOps für AI-Workloads in Azure
KI-Workloadvorgänge sind auf die Härtung von Daten und den Verbrauch dieser Daten ausgerichtet. Der Betrieb stellt die Effizienz bei der Erreichung und Aufrechterhaltung der Qualität, Zuverlässigkeit, Sicherheit, Ethik und anderer Standards sicher, die Sie für die Arbeitsauslastung priorisieren.
Die Workloadaufgaben können in drei Hauptbereiche unterteilt werden: Anwendungsentwicklung, Datenverarbeitung und KI-Modellmanagement. Jede Kategorie sollte bewährte operative Methoden wie DevOps, DataOps, MLOps und GenAIOps einführen.
DevOps-Aktivitäten umfassen die gesamte Verwaltung des Anwendungsentwicklungslebenszyklus durch automatisierte kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD)-Pipelines und -Überwachung. Für KI-Workloads ist die Datenpipeline jedoch eine der Kernkomponenten. DataOps, eine Spezialisierung von DevOps, konzentriert sich auf die Verwaltung des Datenlebenszyklus durch Optimieren von Prozessen wie Datenextraktion, Transformation und Laden (ETL/ELT). DataOps-Experten messen in der Regel die Datenflussleistung und die Wirksamkeit der Datenbereinigung und überwachen die Pipeline auf Anomalien.
KI-Workloads sind inhärent nicht deterministisch. Viele KI-Modelle sind anfällig für unterschiedliche Antworten auf dieselbe Untersuchung während der Ableitung. Diese Workloads benötigen Prozesse, die die Unvorstellbarkeit von KI-Ausgaben verwalten und anpassen können. DataOps erweitert sich auf MLOps, wodurch Machine Learning-Workflows für Modellschulungen und -tests operationalisiert werden. GenAIOps, eine spezialisierte Teilmenge von MLOps, zielt auf generative KI-Lösungen ab. Es umfasst Aufgaben wie Modellermittlung und Verfeinern von vortrainierten Modellen mit angereicherten Daten.
Operative Aktivitäten überschneiden sich häufig, und die verschiedenen Methoden gelten in unterschiedlichem Maße. Bei diskriminativer KI spielt DataOps beispielsweise eine große Rolle, während DevOps-Aktivitäten weniger prominent sind. Im Gegensatz dazu basiert die operative Exzellenz in der generativen KI stärker auf DevOps als DataOps.
Unabhängig davon ist das Gesamtziel die Bereitstellung von Funktionen mit effizienten Vorgängen während des gesamten Entwicklungslebenszyklus. Die erwarteten Ergebnisse sind:
- Wiederholbare Prozesse mit konsistenten Ergebnissen.
- Dauerhafte Genauigkeit der Modelle im Laufe der Zeit.
- Effektive Governance, die Risiken minimiert.
- Change Management-Prozesse zur Anpassung an Modellabweichungen.
Automatisierung und Überwachung sind Ihre wichtigsten operativen Strategien , um diese Ziele zu erreichen.
Außerdem müssen Sie standardisierte Prozesse für KI-Komponenten, für Routine-, ungeplante und Notfallvorgänge einrichten und über geeignete Tracking-Mechanismen verfügen. Ohne diese Prozesse riskieren Sie Folgendes:
- Wiederholte Fehler und Nichtertragbarkeit bei der Datenverarbeitung, Modellhosting, Erdungsdatenverwaltung und anderen Aufgaben.
- Niedrige Qualität oder veraltete Daten, die für Modellschulungen und -verfeinerung verwendet werden.
- Dies wirkt sich auf das Vertrauen der Endbenutzer im System aus, was im schlimmsten Fall zu rechtlichen, Compliance- oder Sicherheitsproblemen führt.
Sie müssen etablierte Prozesse mit den richtigen Tools implementieren. Spezielle Tools stehen für die Verwaltung von KI-/Machine Learning-Workflows in allen Umgebungen zur Verfügung.
Dieser Artikel konzentriert sich auf die Entwurfsstrategie für Vorgänge und bietet Toolempfehlungen.
Empfehlungen
Hier ist die Zusammenfassung der Empfehlungen in diesem Artikel.
Empfehlung | Beschreibung |
---|---|
Entwerfen Sie einen effizienten Arbeitsauslastungs-Betriebslebenszyklus. | Basierend auf den Komponenten Ihrer KI-Workload gelten unterschiedliche Betriebsphasen für den Lebenszyklus. Es ist wichtig, dass Sie die für Ihr Szenario relevanten bewährten Methoden und die Tools kennen, die Ihnen zur Implementierung zur Verfügung stehen. Nehmen Sie sich die Zeit, um sich über die wichtigsten Empfehlungen für alle Komponenten Ihrer Workload zu informieren und zu implementieren. ▪ DataOps ▪ MLOps ▪ GenAIOps ▪ Überwachung |
Automatisieren Sie alles. | Automatisierung sorgt für Wiederholbarkeit und Effizienz im Lebenszyklus einer Workload. Während DevOps-Prozesse ein wichtiger Beitrag zu diesem Thema sind, gibt es zusätzliche Schritte, die Sie ausführen müssen, um Ihre Modelle effizient zu erstellen, zu testen, zu überprüfen und bereitzustellen. ▪ Automatisierung |
Nutzen Sie bereitstellungspipelinen, sofern möglich. | Bereitstellungspipelines können Ihnen helfen, wiederholbare Infrastrukturbereitstellungen bereitzustellen oder Code kontinuierlich zu integrieren. Sie sind auch ein hervorragendes Tool zum Erstellen und/oder Validieren von Modellen, bevor sie in die Produktion gefördert werden. Durch die Implementierung von Bereitstellungspipelines können Sie die Zuverlässigkeit sowie die allgemeine Benutzererfahrung Ihrer Arbeitsauslastung verbessern. ▪ Bereitstellungspipelinen |
Vermeiden Sie Drift und Verfall in Ihren Modellen. | Sie müssen vor dem Verfall und der Abweichung des Modells schützen und gleichzeitig einen strukturierten Prozess haben, der Ihnen hilft, neue Modelländerungen kontrolliert zu akzeptieren. Wenn Sie die Empfehlungen zur Modellwartung befolgen, bleiben Sie konform, vermeiden Sie unerwartete Benutzererfahrungen und bieten einen aktuelleren Dienst. ▪ Modellwartung |
Lebenszyklus von Workloadvorgängen
Diese Abbildung veranschaulicht die Betriebsphasen für KI-Modelle, einschließlich Datensammlung, Bereinigen von Daten, um Inkonsistenzen oder Fehler zu beseitigen und Daten in ein analysierbares Format zu transformieren. Diese Stufen sind sowohl für die Schulung diskriminativer Modelle als auch für die Bodenung von Daten in generativen Modellen relevant. In diesem Bild wird jedoch nicht der spezifische Anwendungsfall von generativen Trainingsmodellen dargestellt. Dieser Anwendungsfall liegt außerhalb des Umfangs dieses Artikels.
Die Phasen von MLOps und GenAIOps sind ähnlich. Der Hauptunterschied besteht darin, dass sich der Fokus im Falle von GenAIOps von der Schulung bis hin zur Auswahl des richtigen Modells, der Prompt Engineering und der Einbindung von domänenspezifischem Wissen durch Feinabstimmung oder Implementierung von Retrieval Augmented Generation (RAG) ändert.
Auch die Phasen für die Bereitstellung und Überwachung sind relativ ähnlich.
In den folgenden Abschnitten werden die allgemeinen betrieblichen Methoden beschrieben. Sie decken jede Phase des Lebenszyklus ab, von der Vorproduktion bis zur Produktion.
DataOps
Daten werden aus verschiedenen Produktionsdatenquellen aggregiert und dann vorverarbeitet, um Fehler und Inkonsistenzen zu entfernen und fehlende Werte zu behandeln. Schließlich wird es in ein geeignetes Format für Schulungen oder Anreicherung umgewandelt und normalisiert. Die Aspekte der Gestaltung werden in den Artikeln "Training data " und "Grounding Data " beschrieben.
Die Datenvorgänge in dieser Phase sollten effizient sein, da das Behandeln großer Datenmengen aus mehreren Quellen und komplexen Datenpipelinen eine Herausforderung darstellen kann. Die Ansätze, die Sie ergreifen müssen, um sicherzustellen, dass diese Phase qualitativ hochwertige Daten erzeugt. Überwachen Sie diese Phase, um den Fortschritt in Richtung der akzeptablen Qualitätsleiste nachzuverfolgen.
Außerdem müssen Sie sicherstellen, dass Daten sicher sind, da die Daten aus der Produktion stammen. Stellen Sie sicher, dass niedrigere Umgebungen wie Dev/Test so sicher sind wie die Produktion, um Sicherheitsprobleme zu vermeiden.
Hinweis
Behandeln Sie schlechte Qualitätsdaten, indem Sie in den ersten Phasen in umfangreiche Datenreinigung investieren. Nutzen Sie die bekannten Analysemuster, z. B. Medallion, Datengitter und Funktionsspeicher, um vorgelagerte Verarbeitungsaufgaben auszuführen. Wenn die Upstreamphasen unwirksam sind, müssen Sie die Qualität während der nachgelagerten Phasen verbessern, was zu erhöhten Arbeitsauslastungskosten führt, da die Datenvorbereitung während jeder Phase erfolgt.
Informationen zu Datenverarbeitungsaufgaben finden Sie in den folgenden Artikeln:
Extras
Es wird empfohlen, die Daten-Orchestrierungstools Ihrer Workload zu standardisieren. Die Tools sollten in der Lage sein, eine Datenpipeline bereitzustellen, die Aktivitäten gruppieren kann und über integrierte Automatisierung verfügt.
Eine Azure Data Factory-Pipeline kann eine erste Wahl sein. Sie kann viele Datenquellen effizient verbinden und verarbeiten. Sie können auch Azure Synapse Analytics in Betracht ziehen, das Big Data und Data Warehouse kombiniert und Data Lakes, Apache Spark und Azure Synapse SQL unterstützt. Es ist auch in Data Factory für ETL integriert.
Für die Vorbereitung von Schulungsdaten bieten Azure Machine Learning-Pipelines spezielle Features, die Aufgaben wie Datensammlung und -verarbeitung automatisieren können.
Open-Source-Technologien wie Pandas (für die Datenvorbereitung) und Scrapy sind beliebte Optionen.
MLOps
Modellschulungen sind der Prozess der Auswahl geeigneter Algorithmen und die Bereitstellung von vorverarbeiteten historischen Daten und Beobachtungen, um dem Modell das Erlernen von Mustern und Vorhersagen zu ermöglichen.
Schulung des Modells (Feature Engineering) und der Hyperparameteroptimierung sind iterative Prozesse und sind teuer. Während jeder Iteration verfolgen Datenwissenschaftler Ergebnisse mit Kombinationen aus Daten, Code und Parametern. Verwenden Sie wiederholbare Pipelines, um Experimente mit minimalem manuellen Aufwand nachzuverfolgen, bis die richtige Genauigkeit erreicht ist.
Eine weitere operative Herausforderung ist die Bereitstellung und Skalierung spezieller Computeressourcen , in denen Experimente durchgeführt werden. Außerdem sollten Sie Modelle effizient verpacken und veröffentlichen.
Teams können mit der UI-basierten Entwicklung beginnen, um Herausforderungen zu reduzieren und, da sie sicherer werden, auf einen codebasierten Ansatz umsteigen.
Extras
Es wird empfohlen, Tools zu verwenden, mit denen Machine Learning-Experimente nachverfolgt werden können, indem Details wie Codeversionen, Umgebungen, Parameter, Ausführung und Ergebnisse erfasst werden. MLflow ist ein solches Open-Source-Framework. Erwägen Sie die Verwendung von Azure Machine Learning-Arbeitsbereichen, die MLflow-kompatibel sind und einen optimierten Workflow bereitstellen, mit dem Datenwissenschaftler Produktivität und Reproduzierbarkeit in ihren Projekten verwalten können. Um die Codeentwicklung mit der Quellcodeverwaltungsnachverfolgung zu verwalten, integrieren Sie die Machine Learning-Pipeline in die Quellcodeverwaltung wie GitHub oder verwenden Sie Dateifreigaben.
Die Hosting-Compute kann auch Die Wahl eines Workflow-Orchestrators beeinflussen. Wenn Ihre Anwendung auf Azure Kubernetes Service (AKS) gehostet wird, sollten Sie Kubeflow verwenden.
Wenn Sie Azure Machine Learning in Betracht ziehen, empfehlen wir Ihnen, mit der Perspektive azure Well-Architected Framework auf Machine Learning zu beginnen, um sicherzustellen, dass Sie wissen, wie Das Produkt Ihnen bei den Qualitätsaspekten des Well-Architected Frameworks der Workload helfen kann.
Ein Teil des Prozesses ist die Optimierung der persönlichen Zeit. Datenwissenschaftler benötigen in der Regel spezifische Tools und SDKs, um explorative Datenanalyse (EDA) und Experimente von ihren Arbeitsstationen effektiv durchzuführen. Bewerten Sie, ob vordefinierte Optionen in Azure Machine Learning geeignet sind. Wenn dies nicht der Fall ist, speichern Sie die Konfiguration der Arbeitsstation oder verwalten Sie genehmigte VM-Images für diese Arbeit. Ein Beispiel für ein Bild, das Sie als Ausgangspunkt verwenden können, ist der virtuelle Data Science-Computer (DATA Science Virtual Machine, DSVM).
In bestimmten Fällen ist die Verwendung von virtuellen Computern möglicherweise durch eine Richtlinie unzulässig. Suchen Sie nach Alternativen, z. B. dem Hinzufügen von Microsoft Dev Box und Azure Virtual Desktop. Sie können auch die Verwendung von Docker zum Bootstrap von Computern mit vordefinierten Images in Betracht ziehen.
Wenn diese Phase jedoch reift und Sie erweiterte Experimente benötigen, wechseln Sie zu verwalteten Computeinstanzen, und bevorzugen Sie Optionen, die als Teil des Workflows integriert sind. Bewerten Sie, ob Sie Azure Machine Learning-Computeinstanzen für Schulungen und Ableitungen für Entwicklungs- und Testzwecke verwenden können. Die Computecluster können große Datasets und komplexe Modelle verarbeiten.
Azure Machine Learning bietet sowohl codebasierte Lösungen über das SDK als auch Low-Code-Optionen wie automatisiertes Maschinelles Lernen und den visuellen Designer. Das Python SDK bietet mehrere Möglichkeiten zum Trainieren von Modellen mit jeweils unterschiedlichen Features. Machine Learning unterstützt auch erweiterte Optimierungs- und verteilte Computing-Technologien wie DIE ORTModule, DeepSpeed und LoRA von ONNX Runtime Training, um den Schulungsprozess zu beschleunigen.
GenAIOps
Wichtige Aktivitäten in dieser Phase beginnen mit der Ermittlung und Auswertung vorhandener Modelle , um einen zu identifizieren, der für den spezifischen Anwendungsfall vortrainiert ist. Dies ist ein iterativer Prozess. Nachdem Sie ein geeignetes Modell gefunden haben, kann es davon profitieren, dass es für domänenspezifische Erdung optimiert wird, was auch iterative Schritte umfasst und eine bestimmte Orchestrierungsebene erfordert.
Das Integrieren und Bereitstellen von Modellen erfordert spezielle Tools und Methoden, die über herkömmliche MLOps-Funktionen hinausgehen, einschließlich Orchestrierungsmodelle, Vektorindizes, Eingabeaufforderungen und Codeblöcken.
Extras
Um Ermittlungsaufgaben zu beheben, nutzen Sie Modellkataloge, die Modelle von verschiedenen Anbietern enthalten. Mit dem Modellkatalog im Azure AI Foundry-Portal können Sie aus kuratierten Sammlungen auswerten und Modelle effizient bereitstellen.
Der Azure Machine Learning-Eingabeaufforderungsfluss kann bei der Entwicklung von Orchestrierungscode helfen, die Prototyperstellung, das Experimentieren, das Iterieren und das Eingabeaufforderungs-Engineering ermöglichen. Diese Flüsse können auf verwalteten Azure Machine Learning-Endpunkten bereitgestellt werden. Bewerten Sie, ob Sie die Flüsse mit Ihrer vorhandenen CI/CD-Pipelinetechnologie ausführen und bereitstellen können.
Bereitstellung
In dieser Phase wird das Modell auf einer Hosting- und Ableitungsplattform oder der Bereitstellungsebene von KI-Workloads bereitgestellt. Die APIs müssen als skalierbarer Container gepackt werden. Die Containerplattform kann eine verwaltete Compute- oder benutzerdefinierte Hostingplattform sein. Betriebspraktiken sollten eine sichere Bereitstellung sicherstellen und Rollbacks aktivieren.
Beginnen Sie mit Plattform as a Service (PaaS) und serverlosen Lösungen wie Azure OpenAI Service, um die Einführung und Verwaltung zu vereinfachen. Erwägen Sie die Verwendung der Azure Machine Learning Serverless-API zum Aggregieren des Endpunktzugriffs. Verwaltete Computecluster sind eine geeignete Option für erweiterte Anforderungen. Self-Hosting auf AKS ist eine weitere Option. Stellen Sie sicher, dass Sie ihre Berechnung richtig anpassen und eine ordnungsgemäße Isolation von anderen Workloads erhalten. Sie können auch Optionen in Betracht ziehen, z. B. das vollständige Hosting Ihres Modells als Infrastruktur as a Service (IaaS). IaaS bietet Flexibilität, kann aber den Betrieb belasten. Diese Optionen werden in der Anwendungsplattform beschrieben.
Diese Phase stellt die letzte Möglichkeit dar, Probleme zu erfassen, bevor Sie das Modell in die Produktion verschieben. Testprozesse sollten Überprüfungsschritte enthalten, um sicherzustellen, dass das Modell so konfiguriert ist, dass vorhersagen wie erwartet bereitgestellt wird.
Sie sollten das Modell in die vorhandene Produktionsumgebung integrieren, indem Sie progressive Expositionsprozesse ausführen und parallele Bereitstellungen verwenden. Das Canarymodell ist eine gängige Möglichkeit, neue Modelle einzuführen. Mit dieser Methode wird die Benutzerbasis schrittweise erhöht. Die blaugrüne Bereitstellung ist eine andere Methode.
Extras
Sie können Azure Machine Learning-Pipelines oder Azure-Pipelines verwenden, um Ihre Modelle für die Ableitung bereitzustellen. Machine Learning bietet mehrere Features für vereinfachte Vorgänge, einschließlich Knotenbereitstellung, Betriebssystemupdates, automatische Skalierung, Überwachung und isolierte virtuelle Netzwerke.
Machine Learning unterstützt auch die blaugrüne Bereitstellung, mit der ein einzelner Endpunkt mehrere Bereitstellungen enthalten kann.
Wenn Sie andere Hostingplattformen wie Azure Container Apps oder Azure-App Service verwenden, sind Sie für die Vorgänge verantwortlich, einschließlich Bereitstellung und Skalierung. Verwenden Sie Azure DevOps, GitHub-Pipelines oder Ihre Wahl der CI/CD-Technologie in diesen Fällen.
Überwachung
Die Überwachung ist eine Schlüsselstrategie und wird in allen Phasen angewendet. Es ist ein fortlaufender Prozess und dient als Eingabe für Qualitätsgates, die sicherstellen, dass KI-Workloads streng getestet werden, um Konsistenz und Zuverlässigkeit während des gesamten Entwicklungslebenszyklus aufrechtzuerhalten. Modelle müssen sowohl aus betrieblicher als auch aus datenwissenschaftlicher Sicht überwacht werden.
Es wird dringend empfohlen, dass Sie über einen DataOps-Prozess für die interne Schleifenüberwachung verfügen, der die Nähe zu einer Akzeptanzqualitätsleiste misst und auf Anomalien überprüft.
Bei vortrainierten Modellen ist es auch wichtig, Datendrift und Leistung zu überwachen, wobei der Schwerpunkt auf Relevanz liegt. Bewerten Sie die Eingaben (Eingabeaufforderungen) und die Ausgaben (Fertigstellungen), um sicherzustellen, dass sie relevant und genau sind. Beachten Sie außerdem Sicherheitsrisiken, z. B. Versuche, das Verhalten des Modells durch böswillige Eingabeaufforderungen zu manipulieren. Stellen Sie sicher, dass es eine gründliche Kon Zelt-Modus ration gibt, die Daten in beide Richtungen überprüft und unangemessene Inhalte herausfiltert. Diese Überlegungen werden im Designbereich "ResponsibleAI" beschrieben.
Nach der Bereitstellung sind Überwachungsvorgänge erforderlich, um Probleme wie den Modellzerfall zu beheben. Modelle können aufgrund von Datenänderungen oder externen Änderungen veraltet werden, die dazu führen können, dass das Modell irrelevante Ergebnisse erzeugt. Verwenden Sie als proaktive Maßnahme automatisierte Prozesse für die kontinuierliche Überwachung, bewerten und neu trainieren, um Genauigkeit und Relevanz aufrechtzuerhalten. Darüber hinaus müssen Sie Infrastruktur- und Arbeitsauslastungsmetriken wie bei jeder anderen Workload überwachen, um eine optimale Leistung und Zuverlässigkeit zu gewährleisten. Weitere Informationen finden Sie unter Testen des Modellzerfalles.
Extras
Investieren Sie in Tools, die das Sammeln von Metriken von Ableitungsendpunkten erleichtern, z. B. azure Machine Learning Data Collector.
Sie benötigen auch die Observierbarkeit von Modellleistung, Datenabweichung und Sicherheit und Qualität für generative KI.
Weitere Informationen finden Sie in folgenden Artikeln:
Automation
KI-Workloads sind komplex, da der Gesamtlebenszyklus viele Rollen, häufige Änderungen und zusammenhängende Schritte umfasst. Manuelle Prozesse können anfällig für Fehler und Inkonsistenzen sein. Die Automatisierung des Datenverarbeitungsmodellhostings trägt zur Gewährleistung der Wiederholbarkeit und Effizienz bei. Automatisierung ist nicht immer erforderlich, aber es ist eine effektive Möglichkeit, diese Komplexitäten zu verwalten. Im Folgenden finden Sie einige Anwendungsfälle, in denen die Automatisierung Risiken mindern kann:
Im Gegensatz zur herkömmlichen Codebereitstellung erfordern nichtdeterministische Modelle und Lösungen in KI / maschinellem Lernen iterative Experimente und Schulungen. Wenn mehrere Teams zusammenarbeiten, kann die Automatisierung als Möglichkeit zum Erzwingen standardisierter Prozesse dazu beitragen, Konsistenz, Reproduzierbarkeit und effektive Zusammenarbeit zwischen Datenwissenschaftlern, Ingenieuren und Betriebsteams aufrechtzuerhalten.
Der Modelllebenszyklus umfasst zwei Haupttypen von Schulungen:
Onlineschulungen enthalten aktuelle Daten häufig, manchmal täglich, in das Modell, um sicherzustellen, dass Entscheidungen auf den neuesten Informationen basieren. Diese Schulung ist in die Arbeitsauslastung integriert, sodass das Modell im Rahmen des regulären Prozesses kontinuierlich aktualisiert wird.
Offlineschulungen trainieren das Modell weniger häufig und ermöglichen eine längere Lücke zwischen Updates. Der Schulungsvorgang ist von der Hauptarbeitslast getrennt und wird asynchron durchgeführt. Nachdem das neue Modell fertig ist, wird es dann in das System integriert.
Zuverlässigkeit kann kompromittiert werden, wenn Updates selten sind. Wenn ein Update verpasst wird, kann es ohne größere Probleme verschoben werden. Dieses Konzept gilt auch für Erdungsdaten. Wenn Sie beispielsweise RAG verwenden, müssen Sie entscheiden, ob Sie aktuelle Daten verwenden müssen oder ob etwas ältere Daten ausreichen. Beide Szenarien umfassen den Ausgleich der Notwendigkeit aktueller Informationen mit der Praktischkeit der Aktualisierungshäufigkeit. Sie sollten Onlineschulungen über automatisierungsbedingt aufgrund der erforderlichen Häufigkeit und Zuverlässigkeit durchführen. Für Offlineschulungen müssen Sie aufgrund der erforderlichen Häufigkeit die Automatisierung rechtfertigen, indem Sie eine Kosten-Nutzen-Analyse durchführen. Darüber hinaus können Sie Offlineschulungen durchführen, indem Sie weniger teure Ressourcen verwenden, z. B. Offlinehardware.
Herkömmliche DevOps-Prozesse sind in der Regel von strukturellen Änderungen betroffen. In KI und maschinellem Lernen werden Modelle jedoch auf Produktionsdaten trainiert. Der Modellabfall stellt ein erhebliches Risiko dar und kann im Laufe der Zeit zu einer verringerten Leistung führen, wenn sie nicht überwacht wird. Die automatisierte Erfassung und Analyse von Leistungsmetriken, Warnungen und Modellumschulungen ist erforderlich, um die Modelleffizienz aufrechtzuerhalten. Verwenden Sie die Automatisierung so, dass Sie Änderungen in Daten- und Modellabhängigkeiten erkennen können, um jederzeit ein klares Verständnis des aktuellen Zustands zu erhalten.
Modelle können mit zwei unterschiedlichen Ansätzen trainiert werden.
- Die Modelle werden in der Entwicklungsumgebung mit vollständigen Produktionsdaten trainiert, und nur das Artefakt wird durch Umgebungen gefördert. Dieser Ansatz kann rechenintensive Kosten senken, erfordert jedoch eine engere Sicherheit für die Verarbeitung von Produktionsdaten in den niedrigeren Umgebungen und ist in allen Organisationen möglicherweise nicht möglich.
- Das Modell wird in jeder Umgebung trainiert. Die Codeförderung kann bei der Stabilität helfen, da Schulungscode in den niedrigeren Umgebungen überprüft und getestet wird, aber die Kosten für die Berechnung erhöht werden.
Beide Ansätze haben Vor- und Nachteile. Die Auswahl des richtigen Ansatzes hängt von den Prioritäten Ihrer Organisation und den Methoden des Software Development Life Cycle (SDLC) Ihrer Organisation ab. Unabhängig von der Methode sind gründliche Tests und Auswertungen des Modells vor der Produktionsbereitstellung unerlässlich.
Ihr Automatisierungscode sollte die Datenlinie integrieren, um die Auditierbarkeit zu unterstützen, indem eine klare Aufzeichnung der Datenverarbeitungsphasen bereitgestellt wird. Dieser Datensatz hilft Ihnen dabei, Erwartungen zu verwalten und ihnen zu zeigen, wie Entscheidungen getroffen wurden, damit Sie alle Bedenken hinsichtlich der Ergebnisse berücksichtigen können.
Bereitstellungspipelines
Bei AI/Machine Learning-Workloads umfasst die Modellentwicklung das Erstellen, Validieren und Fördern von Modellen zum Modellieren von Hostingplattformen. Es ist wichtig, bereitstellungspipelines zu haben, die komplexe Workflows im Zusammenhang mit der Datenverarbeitung, Feature engineering, Modellschulung oder Erweiterung und Bereitstellung in der Produktion optimieren. Angesichts der nicht deterministischen Natur der KI, die Prozesse undurchsichtig macht, müssen Sie qualitative Tests in Releasepipelines und Überwachungssysteme integrieren.
Obwohl MLOps und GenAIOps möglicherweise unterschiedliche KI-Aktivitäten und Kerntechnologien erfordern, sind die zugrunde liegenden Konzepte denen von DevOps ähnlich. Es wird empfohlen, bewährte Methoden aus Ihren vorhandenen DevOps-Prozessen anzuwenden. Integrieren Sie KI-Aktivitäten in die vorhandenen Pipelines Ihrer Workload.
In der Regel umfassen KI-Workloads herkömmliche Codebereitstellungen. Sie können die Modellbereitstellung zusammen mit dem Code oder separat in ihrem eigenen Lebenszyklus behandeln. Der frühere Ansatz ist vorzuziehen. Bereiten Sie sich darauf vor, Modelle und Ableitungsendpunkte mit Workloadbereitstellung zu packen, um KI-Vorgänge hauptsächlich auf die Datenvorbereitung, Schulungen/Feinabstimmung, Erdungsdatenverwaltung und Überwachung zu konzentrieren.
Überprüfen Sie, wie die folgenden Ressourcen so angepasst werden können, dass sie den gesamten MLOps- und GenAIOps-Lebenszyklus abdecken, von der Vorproduktion bis zur Produktion:
- Infrastructure-as-Code(IaC)-Tools
- CI/CD-Pipelines
- Der Observability-Stapel zum Nachverfolgen und Identifizieren von Problemen
Extras
Sie können Azure-Pipelines und GitHub-Aktionen-Workflows, die häufig für CI/CD verwendet werden, auf Machine Learning-Modelle erweitern. Sie helfen bei der Bereitstellung von Machine Learning-Infrastruktur, benutzerdefinierten Workloadkomponenten, Orchestrierungscode und Modellen. Kombinieren Sie Azure Machine Learning-Pipelines mit Azure DevOps- oder GitHub-Pipelines. Weitere Informationen finden Sie unter Verwenden von Azure Pipelines mit Azure Machine Learning.
Zwei Hauptfaktoren beeinflussen die Wahl der richtigen Kombination von Tools: Anwendungsfall und Funktionen. Beispielsweise eignen sich Azure Machine Learning-Pipelines hervorragend für die Orchestrierung, die von Data Scientists durchgeführt wird. Es verfügt über einen umfassenden Featuresatz, der die Wiederverwendung, Zwischenspeicherung und vieles mehr unterstützt. Informationen zu Tools finden Sie unter Welche Azure-Pipelinetechnologie sollte ich verwenden?.
Modellwartung
Die KI/ML-Landschaft ist mit fortlaufender Innovation wettbewerbsfähig. Neue Modelle entstehen häufig, neue Anwendungsfälle werden entdeckt, und neue Datenquellen sind verfügbar. Daher ist der Modellverfall eine häufige Herausforderung.
Um Modellleistungsverschlechterung oder -abweichung im Laufe der Zeit zu verhindern, müssen Sie automatisierte Prozesse für kontinuierliche Überwachung, Auswertung und Umschulung implementieren. Zum Beispiel:
Verwalten eines Modellkatalogs. Automatisieren Sie den Prozess der Ermittlung neuer Modelle und aktualisieren Sie den Katalog.
Passen Sie sich an neue Anwendungsfälle an. Wenn neue Anwendungsfälle zu den Workloadanforderungen hinzugefügt werden, antizipieren Sie die Abfragen und passen Sie Ihre Datenverarbeitungslogik entsprechend an.
Integrieren sie neue Datenquellen. Wenn neue Datenquellen die prädiktive Leistungsfähigkeit oder Relevanz Ihres Modells potenziell verbessern können, aktualisieren Sie die Datenaufnahmepipeline, um eine Verbindung mit diesen Quellen herzustellen und Daten aus diesen Quellen abzurufen.
Bewerten der Einhaltung gesetzlicher Vorschriften. Wenn Sie sich an neue Funktionen anpassen, stellen Sie sicher, dass Änderungen innerhalb der Einschränkungen von Organisations- oder externen Compliancestandards gültig bleiben.
Implementieren Sie einen formalen Prozess zum Nachverfolgen einer kontinuierlichen Verbesserung und integrieren Sie die Selbstverbesserung als Teilprozess innerhalb dieses Zyklus.
Kontinuierliche Weiterentwicklung
Überprüfen und verbessern Sie die Vorgänge regelmäßig, und fördern Sie Innovationen.
Das MLOps-Reifegradmodell schreitet von manuellen Prozessen bis hin zur vollständigen Automatisierung fort. Beginnen Sie mit manuellen Builds und Überwachung, und integrieren Sie automatisierte Anwendungsbuilds, Schulungsumgebungen und Bereitstellungen in Phasen, die durch umfassende Metriken gerechtfertigt sind. Weitere Informationen finden Sie unter MLOps-Reifegradmodell.
Die GenAIOps-Reifegrade bewegen sich von Basismodellen bis hin zur strukturierten Bereitstellung, indem sie schrittweise automatisierte Optimierungstechniken verwenden. Weitere Informationen finden Sie unter Advance your maturity level for GenAIOps.For more information, see Advance your maturity level for GenAIOps.