GenAIOps für MLOps-Praktiker
Dieser Artikel bietet Anleitungen für Teams, die über Investitionen in Machine Learning Operations (MLOps) verfügen und diese Investitionen erweitern möchten, um generative KI in ihre Arbeitslast zu integrieren. Um eine generative KI-Workload zu operationalisieren, müssen Sie Ihre MLOps-Investitionen mit GenAIOps erweitern (Generative AI Ops, Vorgänge generativer KI; manchmal auch als LLMOps bezeichnet). In diesem Artikel werden technische Muster beschrieben, die zwischen herkömmlichem maschinellem Lernen und generativen KI-Workloads und bestimmten Mustern für generative KI üblich sind. Der Artikel hilft Ihnen zu verstehen, wo Sie bereits getätigte Investitionen in die Operationalisierung anwenden können und wo Sie diese Investitionen erweitern müssen.
Die Planung und Implementierung von MLOps und GenAIOps sind Teil entscheidender Entwurfsbereiche für KI-Workloads in Azure. Informationen dazu, warum diese Workloads spezielle Operationen benötigen, finden Sie unter MLOps und GenAIOps für KI-Workloads in Azure im Azure Well-Architected Framework.
Technische Muster für generative KI
Generative KI-Workloads unterscheiden sich von herkömmlichen Machine Learning-Workloads auf verschiedene Arten:
Schwerpunkt auf generativen Modellen. Herkömmliche Workloads für maschinelles Lernen konzentrieren sich auf das Training neuer Modelle, die zum Ausführen bestimmter Aufgaben trainiert werden. Generative KI-Workloads nutzen generative Modelle, die eine größere Vielfalt von Anwendungsfällen abdecken können und in einigen Fällen multimodal sind.
Schwerpunkt auf der Erweiterung der Modelle. Die wichtigste Ressource beim herkömmlichen maschinellen Lernen ist das bereitgestellte Modell. Der Zugriff auf das Modell wird dem Clientcode in einer oder mehreren Workloads gewährt, aber die Workload ist nicht Teil des MLOps-Prozesses. Bei generativen KI-Lösungen ist ein wichtiger Aspekt der Lösung der Prompt, der dem generativen Modell bereitgestellt wird. Der Prompt muss zusammengesetzt sein und kann Daten aus einem oder mehreren Datenspeichern enthalten. Das System, das die Logik koordiniert, die verschiedenen Back-Ends aufruft, den Prompt generiert und das generative Modell aufruft, ist Teil des generativen KI-Systems, das Sie mit GenAIOps steuern müssen.
Obwohl einige generative KI-Lösungen herkömmliche Machine Learning-Vorgehensweisen wie Training und und Feinabstimmung von Modellen verwenden, führen sie alle neue Muster ein, die Sie standardisieren sollten. In diesem Abschnitt finden Sie eine Übersicht über die drei allgemeinen Kategorien technischer Muster für generative KI-Lösungen:
- Vorabtraining und Feinabstimmung
- Eingabeaufforderungsengineering
- Retrieval Augmented Generation (RAG)
Training und Feinabstimmung von Sprachmodellen
Derzeit verwenden viele generative KI-Lösungen vorhandene Basissprachmodelle, die vor der Verwendung keine Feinabstimmung erfordern. Einige Anwendungsfälle können von der Feinabstimmung eines Basismodells oder der Schulung eines neuen generativen KI-Modells, wie beispielsweise eines kleinen Sprachmodells (SLM), profitieren.
Das Training eines neuen SLM oder die Feinabstimmung eines generativen Basismodells sind logisch die gleichen Prozesse wie das Training herkömmlicher Machine Learning-Modelle. Diese Prozesse sollten Ihre vorhandenen MLOps-Investitionen nutzen.
Eingabeaufforderungsengineering
Prompt Engineering umfasst alle Prozesse, die am Generieren eines Prompts beteiligt sind, der als Eingabe an ein generatives Modell gesendet wird. Es gibt in der Regel einen Orchestrator, der einen Workflow zum Generieren des Prompts steuert. Der Orchestrator kann eine beliebige Anzahl von Datenspeichern aufrufen, um Informationen wie Grounding-Daten zu sammeln, und die erforderliche Logik anwenden, um den effektivsten Prompt zu generieren. Der Orchestrator wird dann als API-Endpunkt bereitgestellt, auf den der Clientcode in einer intelligenten Anwendung zugreift.
Das folgende Diagramm zeigt eine Architektur für Prompt Engineering.
Diese Kategorie von technischen Mustern kann viele Anwendungsfälle behandeln, darunter:
- Klassifizierung:
- Übersetzung.
- Zusammenfassung
- Retrieval-Augmented Generation, die im nächsten Abschnitt erläutert wird
Retrieval Augmented Generation
Retrieval-Augmented Generation (RAG) ist ein architekturbezogenes Muster, das Prompt Engineering verwendet, um domänenspezifische Daten als Grounding-Daten für ein Sprachmodell zu integrieren. Das Sprachmodell wird anhand einer bestimmten Datenmenge trainiert. Ihre Workload erfordert möglicherweise eine Begründung für Daten, die für Ihr Unternehmen, Ihre Kunden oder Ihre Domäne spezifisch sind. Bei RAG-Lösungen werden Ihre Daten abgefragt, und die Ergebnisse werden dem Sprachmodell als Teil des Prompts bereitgestellt, in der Regel über eine Orchestrierungsebene.
Eine gängige RAG-Implementierung besteht darin, Ihre Dokumente in Blöcke aufzuteilen und in einem Vektorspeicher zusammen mit Metadaten zu speichern. Vektorspeicher, z. B. Azure KI-Suche, ermöglichen es Ihnen, sowohl Text- als auch Vektor-Ähnlichkeitssuchen auszuführen, um kontextbezogene relevante Ergebnisse zurückzugeben. RAG-Lösungen können auch andere Datenspeicher verwenden, um Grounding-Daten zurückzugeben.
Das folgende Diagramm veranschaulicht eine RAG-Architektur:
Erweitern von MLOps für technische Muster der generativen KI
In diesem Abschnitt werden die folgenden Schlüsselaspekte der Phasen der inneren und äußeren Schleife für die technischen Muster der generativen KI beschrieben, damit Sie verstehen, wo Sie Ihre bestehenden MLOps-Investitionen anwenden können und wo Sie sie erweitern müssen:
Innere Schleife
Äußere Schleife
- Bereitstellung
- Rückschließen und Überwachen
- Feedbackschleife
DataOps
Sowohl MLOps als auch GenAIOps wenden die Grundlagen von DataOps an, um erweiterbare und reproduzierbare Workflows zu erstellen, die sicherstellen, dass Daten bereinigt, transformiert und ordnungsgemäß für Experimente und Auswertungen formatiert werden. Die Workflowreproduzierbarkeit und Datenversionsverwaltung sind wichtige Features von DataOps für alle technischen Muster. Die Quellen, Typen und der Zweck der Daten sind musterabhängig.
Training und Feinabstimmung
Dieses technische Muster sollte die vorhandenen DataOps-Investitionen, die Sie im Rahmen Ihrer MLOps-Implementierung getätigt haben, vollständig nutzen. Reproduzierbarkeit und Datenversionsverwaltung ermöglichen es Ihnen, mit verschiedenen Daten aus dem Feature Engineering zu experimentieren, die Leistung der verschiedenen Modelle zu vergleichen und Ergebnisse zu reproduzieren.
RAG und Prompt Engineering
Die Daten in RAG-Lösungen sollen Grounding-Daten bereitstellen, die dem Sprachmodell als Teil eines Prompts präsentiert werden. RAG-Lösungen erfordern oft die Verarbeitung großer Dokumente in eine Sammlung von Blöcken in der richtigen Größe und mit semantischer Relevanz und die dauerhafte Speicherung dieser Blöcke in einem Vektorspeicher. Weitere Informationen finden Sie unter Entwerfen und Entwickeln einer RAG-Lösung. Mit der Reproduzierbarkeit und Datenversionsverwaltung für RAG-Lösungen können Sie mit verschiedenen Blöcken und Einbettungsstrategien experimentieren, die Leistung vergleichen und auf frühere Versionen zurücksetzen.
Datenpipelines für das Aufteilen von Dokumenten in Blöcke sind nicht Teil von DataOps in herkömmlichen MLOps, sodass Sie Ihre Architektur und Ihre Vorgänge erweitern müssen. Die Datenpipelines können Daten aus unterschiedlichen Quellen lesen, die sowohl strukturierte als auch unstrukturierte Daten enthalten. Sie können auch die transformierten Daten in verschiedene Ziele schreiben. Sie müssen Ihre Architektur erweitern, um die Datenbanken einzuschließen, die Sie für die Validierung von Daten verwenden. Allgemeine Datenspeicher für diese Muster sind Vektorspeicher wie KI-Suche.
Wie bei Training und Feinabstimmungen können Sie Azure Machine Learning-Pipelines oder andere Datenpipelinetools nutzen, um die Phasen der Blockerstellung zu koordinieren. Sie können die Prompt-Flows in Azure Machine Learning-Pipelines nutzen, um Ihre Daten auf konsistente und reproduzierbare Weise zu verarbeiten und anzureichern. Außerdem müssen Sie Ihre Vorgänge erweitern, um die Aktualität und Gültigkeit der Suchindizes in den Datenspeichern aufrechtzuerhalten.
Experimentieren
Experimentieren, ein Teil der inneren Schleife, ist der iterative Prozess zum Erstellen, Auswerten und Optimieren Ihrer Lösung. In den folgenden Abschnitten wird das Experimentieren für die gängigen technischen Muster der generativen KI erläutert.
Training und Feinabstimmung
Wenn Sie ein vorhandenes Sprachmodell optimieren oder ein kleines Sprachmodell trainieren, können Sie Ihre aktuellen MLOps-Investitionen nutzen. Beispielsweise bieten Azure Machine Learning-Pipelines ein Toolkit zum effizienten und effektiven Durchführen von Experimenten. Mit diesen Pipelines können Sie den gesamten Feinabstimmungsprozess von der Datenvorverarbeitung bis hin zum Modellieren von Trainings und Auswertungen verwalten.
RAG und Prompt Engineering
Das Experimentieren mit Prompt Engineering- und RAG-Workloads erfordert eine Erweiterung Ihrer MLOps-Investitionen. Bei diesen technischen Mustern endet die Workload nicht mit dem Modell. Die Workload erfordert einen Orchestrator. Dabei handelt es sich um ein System, das Logik ausführen, Datenspeicher für erforderliche Informationen wie Grounding-Daten aufrufen, Prompts generieren, Sprachmodelle aufrufen und viele weitere Aktionen ausführen kann. Die Datenspeicher und die Indizes in den Speichern sind ebenfalls Teil der Workloads. Sie müssen Ihre Betriebsabläufe erweitern, um diese Aspekte der Arbeitslast zu steuern.
Sie können bei Prompt Engineering mit mehreren Dimensionen experimentieren, u. a. mit verschiedenen Anweisungen, Personas, Beispielen, Einschränkungen und fortgeschrittenen Techniken wie Prompt Chaining. Beim Experimentieren mit RAG-Lösungen können Sie mit zusätzlichen Bereichen experimentieren:
- Chunking-Strategie
- Erstellen und Anreichern von Blöcken
- Ihr Einbettungsmodell
- Konfiguration des Suchindexes
- Welche Suchvorgänge ausgeführt werden sollen (Vektor, Volltext, Hybrid usw.)
Wie in DataOps erläutert, sind Reproduzierbarkeit und Datenversionsverwaltung der Schlüssel zum Experimentieren. Mit einem guten Experimentframework können Sie Eingaben, z. B. Änderungen an Hyperparametern oder Prompts, zusammen mit den Ausgaben speichern, die beim Auswerten des Experiments verwendet werden sollen.
Wie bei Ihrer vorhandenen MLOps-Umgebung können Sie Frameworks wie Azure Machine Learning-Pipelines nutzen. Azure Machine Learning-Pipelines verfügen über Features, die die Indizierung unterstützen, indem sie in Vektorspeicher wie Azure KI-Suche integriert werden. Ihre GenAIOps-Umgebung kann diese Pipelinefeatures nutzen und mit Prompt Flow-Features kombinieren, die Prompt Engineering und benutzerdefinierte Vorverarbeitungslogik verwalten.
Evaluieren und Experimentieren
Die Auswertung ist der Schlüssel zum iterativen Experimentierprozess, um Ihre Lösung zu erstellen, zu bewerten und zu verfeinern. Die Auswertung Ihrer Änderungen liefert das Feedback, damit Sie Ihre Verfeinerungen vornehmen oder überprüfen können, ob die derzeitige Iteration Ihre Anforderungen erfüllt. In den folgenden Abschnitten wird die Auswertung in der Experimentierphase für die gängigen technischen Muster der generativen KI erörtert.
Training und Feinabstimmung
Zur Bewertung optimierter oder trainierter generativer KI-Modelle sollten Sie vorhandene MLOps-Investitionen nutzen. Wenn Sie beispielsweise Azure Machine Learning-Pipelines verwenden, um Ihr Machine Learning-Modelltraining zu orchestrieren, können Sie dieselben Auswertungsfeatures für die Feinabstimmung von Basissprachmodellen oder das Training neuer kleiner Sprachmodelle nutzen. Diese Features umfassen die Evaluate Model-Komponente, die branchenübliche Auswertungsmetriken für bestimmte Modelltypen berechnet und Ergebnisse über Modelle hinweg vergleicht.
RAG und Prompt Engineering
Sie müssen Ihre bestehenden MLOps-Investitionen erweitern, um generative KI-Technologien auszuwerten. Sie können Tools wie Prompt Flow verwenden, das ein Framework für die Auswertung bereitstellt. Mit prompt flow können Teams benutzerdefinierte Auswertungslogik definieren, indem sie Kriterien und Metriken angeben, um die Leistung verschiedener Promptvarianten und LLMs (Large Language Models, große Sprachmodelle) zu bewerten. Dieser strukturierte Ansatz ermöglicht Ihnen den parallelen Vergleich verschiedener Konfigurationen, z. B. Hyperparameter- oder Architekturvariationen, um die optimale Einrichtung für bestimmte Aufgaben zu identifizieren.
Aufträge in prompt flow erfassen automatisch Eingabe- und Ausgabedaten während des gesamten Experimentiervorgangs, um einen umfassenden Testdatensatz zu erstellen. Durch die Analyse dieser Daten können Sie Erkenntnisse gewinnen und vielversprechende Konfigurationen ermitteln, die in zukünftige Iterationen einfließen können. Sie können die Entwicklung Ihrer generativen KI-Lösungen beschleunigen, indem Sie effiziente und systematische Experimente mithilfe von Prompt Flows durchführen.
Der Experimentierprozess ist unabhängig vom Anwendungsfall für Ihre generative KI-Lösung der gleiche. Zu diesen Anwendungsfällen gehören Klassifizierung, Zusammenfassung, Übersetzung und sogar RAG. Der wichtige Unterschied ist die Metrik, die Sie zum Auswerten der verschiedenen Anwendungsfälle verwenden. Einige Metriken, die man basierend auf dem Anwendungsfall berücksichtigen sollte, sind im Folgenden aufgeführt.
- Übersetzung: BLEU
- Zusammenfassung: ROUGE. BLEU, BERTScore, METEOR
- Klassifizierung: Präzision, Recall, Genauigkeit, Kreuzentropie
- RAG: Geerdetheit, Relevanz
Hinweis
Weitere Informationen zur Bewertung von Sprachmodellen und RAG-Lösungen finden Sie unter End-to-End-Evaluierung der LLM.
Im Allgemeinen erweitern generative KI-Lösungen die Verantwortlichkeiten des Machine-Learning-Teams vom Modelltraining bis hin zum Prompt-Engineering und zum Verwalten von Ankerdaten. Da Prompt Engineering und RAG-Experimentieren und -Auswerten nicht notwendigerweise Data Scientists erfordern, ist es möglicherweise verlockend, diese Funktionen mit anderen Rollen wie technischen Fachkräften für Software und Daten auszuführen. Sie stoßen auf Herausforderungen, wenn Sie Data Scientists aus dem Experimentieren mit Prompt Engineering- und RAG-Lösungen ausschließen. Andere Rollen werden normalerweise nicht darauf geschult, Ergebnisse wissenschaftlich zu bewerten, im Gegensatz zu vielen Datenwissenschaftlern. Lesen Sie die siebenteilige Artikelreihe Entwerfen und Entwickeln einer RAG-Lösung, um ein Verständnis für die Komplexität des Entwerfens von generativen KI-Lösungen zu erhalten.
Wenn Sie in generative KI-Lösungen investieren, können Sie den Druck auf Ihre Data-Science-Ressourcen verringern. Die Rolle von Softwareentwickelnden erweitert sich bei diesen Lösungen. Softwareingenieure sind beispielsweise hervorragende Fachkräfte für die Verwaltung der Orchestrierungsverantwortung in generativen KI-Lösungen und sind im Einrichten der Auswertungsmetriken in Tools wie Prompt Flow versiert. Es ist wichtig, dass Data Scientists diese Arbeit überprüfen. Sie haben die Ausbildung und Erfahrung, um zu verstehen, wie die Experimente richtig ausgewertet werden.
Bereitstellung
Einige generative KI-Lösungen umfassen die Bereitstellung von benutzerdefinierten trainierten Modellen oder die Feinabstimmung vorhandener Modelle, andere hingegen nicht. Für generative KI-Lösungen müssen Sie die zusätzlichen Aufgaben zur Bereitstellung der Orchestratoren und aller Datenspeicher einschließen. In den folgenden Abschnitten wird die Bereitstellung für die gängigen technischen Muster der generativen KI erläutert.
Training und Feinabstimmung
Sie sollten Ihre bereits getätigten MLOps-Investitionen mit einigen möglichen Anpassungen nutzen, um generative KI-Modelle bereitzustellen und Basismodelle zu optimieren. Zum Optimieren eines großen Sprachmodells in Azure OpenAI müssen Sie beispielsweise sicherstellen, dass Ihre Trainings- und Validierungsdatasets im JSONL-Format vorliegen, und Sie müssen die Daten über eine REST-API hochladen. Sie müssen auch einen Feinabstimmungsauftrag erstellen. Zum Bereitstellen eines trainierten kleinen Sprachmodells können Sie Ihre vorhandenen MLOps-Investitionen nutzen.
RAG und Prompt Engineering
Bei RAG und Prompt Engineering gibt es zusätzliche Aspekte, einschließlich Orchestrierungslogik, Änderungen an Datenspeichern wie Indizes und Schemas sowie Änderungen an der Datenpipelinelogik. Die Orchestrierungslogik wird in der Regel in Frameworks wie prompt flow, Semantic Kernel oder LangChain gekapselt. Sie können den Orchestrator für unterschiedliche Computeressourcen bereitstellen, einschließlich Ressourcen, für die Sie derzeit u. U. benutzerdefinierte Modelle bereitstellen. Beispiele für die Bereitstellung von prompt flow für verwaltete Onlineendpunkte von Azure Machine Learning oder Azure App Services finden Sie unter End-to-End-Chatarchitektur von Azure OpenA. Für die Bereitstellung in App Service verpackt die Azure OpenAI-Chatarchitektur den Datenfluss und seine Abhängigkeiten als Container, eine Vorgehensweise, die die Portabilität und Konsistenz in verschiedenen Umgebungen erhöht.
Implementierungen von Änderungen an Datenbankressourcen, wie Änderungen an Datenmodellen oder Indizes, sind neue Aufgaben, die in GenAIOps angesprochen werden müssen. Eine gängige Vorgehensweise beim Arbeiten mit großen Sprachmodellen besteht darin, ein Gateway vor dem LLM zu verwenden.
Viele generative KI-Architekturen, die plattformgehostete Sprachmodelle nutzen, die etwa von Azure OpenAI bereitgestellt wurden, enthalten ein Gateway wie Azure API Management. Zu den Gatewayanwendungsfällen gehören Lastenausgleich, Authentifizierung und Überwachung. Das Gateway kann eine Rolle bei der Bereitstellung neu trainierter oder fein abgestimmter Modelle spielen, sodass Sie neue Modelle schrittweise bereitstellen können. Die Verwendung eines Gateways zusammen mit der Modellversionsverwaltung ermöglicht es Ihnen, das Risiko bei der Bereitstellung von Änderungen zu minimieren und ein Rollback auf frühere Versionen auszuführen, wenn Probleme auftreten.
Die Bereitstellung von Elementen, die spezifisch für generative KI sind, wie des Orchestrators, sollte ordnungsgemäßen Betriebsverfahren folgen, wie z. B.:
- Strenge Tests, einschließlich Komponententests
- Integrationstests.
- A/B-Tests
- End-to-End-Tests
- Bereitstellen von Strategien wie Canary- oder Blau/Grün-Bereitstellungen
Da die Bereitstellungsaufgaben für generative KI-Anwendungen über die Modellbereitstellung hinausgehen, benötigen Sie möglicherweise zusätzliche Auftragsrollen, um die Bereitstellung und Überwachung von Elementen wie der Benutzeroberfläche, dem Orchestrator und den Datenspeichern zu verwalten. Diese Rollen werden häufig an DevOps-Expertenkompetenzen ausgerichtet.
Ableiten und Überwachen
Die Ableitung ist der Prozess der Übergabe von Eingaben an ein trainiertes und bereitgestelltes Modell, das dann eine Antwort generiert. Sie sollten sowohl herkömmliche Machine Learning-Lösungen als auch generative KI-Lösungen aus drei Perspektiven überwachen: Betriebsüberwachung, Lernen aus Produktion und Ressourcenmanagement.
Betriebsüberwachung
Die Betriebsüberwachung ist der Prozess zur Beobachtung der laufenden Vorgänge des Systems, einschließlich Datenvorgängen (DataOps) und Modelltrainings. Diese Art der Überwachung sucht nach Abweichungen, einschließlich Fehlern, Änderungen an Fehlerraten und Änderungen an Verarbeitungszeiten.
Für das Modelltraining und die Feinabstimmung beobachten Sie in der Regel die Datenvorgänge für die Verarbeitung von Featuredaten, das Modelltraining und die Feinabstimmung. Bei der Überwachung dieser Prozesse der inneren Schleife sollten Ihre vorhandenen MLOps- und DataOps-Investitionen genutzt werden.
Für Prompt Engineering in generativen KI-Lösungen müssen Sie zusätzliche Überwachungsaspekte berücksichtigen. Sie müssen die Datenpipelines überwachen, die die Grounding-Daten oder andere Daten verarbeiten, die zum Generieren von Prompts verwendet werden. Diese Verarbeitung kann Datenspeichervorgänge wie das Erstellen oder Neuerstellen von Indizes umfassen.
Lernen aus der Produktion
Ein kritischer Aspekt der Überwachung während der Rückschlussphase ist das Lernen aus der Produktion. Die Überwachung für herkömmliche Modelle des maschinellen Lernens verfolgt Metriken wie Genauigkeit, Präzision und Rückruf. Ein wichtiges Ziel ist es, Vorhersagedrift zu vermeiden. Lösungen, die generative Modelle zum Erstellen von Vorhersagen verwenden, z. B. mithilfe eines GPT-Modells für die Klassifizierung, sollten Ihre bereits getätigten MLOps-Überwachungsinvestitionen nutzen.
Lösungen, die generative Modelle verwenden, um das Grounding von Daten durchzuführen, verwenden Metriken wie Fundiertheit, Vollständigkeit, Nutzung und Relevanz. Ziel ist es, sicherzustellen, dass das Modell die Abfrage vollständig beantwortet und die Antwort auf deren Kontext basiert. Hier müssen Sie versuchen, Probleme wie Datendrift zu vermeiden. Sie möchten sicherstellen, dass die Basisdaten und die Eingabeaufforderung, die Sie dem Modell geben, maximal relevant für die Benutzerabfrage sind.
Lösungen, die generative Modelle für nicht-prädiktive Aufgaben wie RAG-Lösungen verwenden, profitieren häufig von menschlichem Feedback von Endbenutzern, um Nützlichkeitsempfindungen zu bewerten. Benutzeroberflächen können Feedback wie Daumen nach oben oder unten erfassen, und Sie können diese Daten verwenden, um die Antworten regelmäßig auszuwerten.
Ein gängiges Muster für generative KI-Lösungen besteht darin, ein Gateway vor den generativen Modellen bereitzustellen. Einer der Anwendungsfälle für das Gateway ist die Überwachung der Basismodelle. Sie können das Gateway zum Protokollieren von Eingabeprompts und Ausgaben verwenden.
Ein weiterer wichtiger Bereich zur Überwachung von generativen Lösungen ist die Inhaltssicherheit. Ziel ist es, schädliche oder unerwünschte Inhalte zu moderieren und zu erkennen. Azure KI Inhaltssicherheit Studio ist ein Beispiel für ein Tool, mit dem Sie Inhalte moderieren können.
Ressourcenverwaltung
Für generative Lösungen, die Modelle verwenden, die als Dienst verfügbar sind, wie z. B. Azure OpenAI, gelten andere Anforderungen an die Ressourcenverwaltung als für Modelle, die Sie selbst bereitstellen. Bei Modellen, die als Dienst verfügbar gemacht werden, müssen Sie sich nicht um die Infrastruktur kümmern. Stattdessen beschäftigen Sie sich mit dem Dienstdurchsatz, dem Kontingent und der Drosselung. Azure OpenAI verwendet Token für Abrechnung, Drosselung und Kontingente. Sie sollten die Kontingentnutzung für Kostenmanagement und Leistungseffizienz überwachen. Mit Azure OpenAI können Sie die Tokenverwendung protokollieren.
Tools
Viele MLOps-Experten haben sich auf ein Toolkit geeinigt, um die verschiedenen Aktivitäten rund um Automatisierung, Nachverfolgung, Bereitstellung, Experimente usw. zu organisieren und die gemeinsamen Bedenken und Implementierungsdetails dieser Prozesse zu abstrahieren. Eine gemeinsame einheitliche Plattform ist MLflow. Bevor Sie nach neuen Tools zur Unterstützung von GenAIOps-Mustern suchen, sollten Sie Ihre vorhandenen MLOps-Tools auf ihre Unterstützung für generative KI überprüfen. Beispielsweise unterstützt MLflow eine breite Palette von Features für Sprachmodelle.
MLOps- und GenAIOps-Reifemodelle
Möglicherweise haben Sie das MLOps-Reifegradmodell verwendet, um den Reifegrad Ihrer aktuellen Machine Learning Operations und -Umgebung zu bewerten. Wenn Sie Ihre MLOps-Investitionen für generative KI-Workloads erweitern, sollten Sie das GenAIOps-Reifegradmodell verwenden, um diese Vorgänge zu bewerten. Möglicherweise sind Sie versucht, die beiden Reifegradmodelle zu kombinieren, aber wir empfehlen, sie jeweils unabhängig voneinander zu messen. MLOps und GenAIOps werden sich unabhängig voneinander entwickeln. Sie könnten sich beispielsweise auf Stufe vier des MLOps-Reifegradmodells befinden, aber auf Stufe eins für generative KI.
Zusammenfassung
Wenn Sie mit der Erweiterung Ihrer MLOps-Investitionen beginnen, um generative KI einzuschließen, ist es wichtig zu verstehen, dass Sie nicht von vorn beginnen müssen. Sie können Ihre vorhandenen MLOps-Investitionen für einige der generativen TECHNISCHEn KI-Muster verwenden. Die Feinabstimmung von generativen Modellen ist ein hervorragendes Beispiel. Es gibt Bereiche generativer KI-Lösungen, wie z. B. Prompt Engineering und RAG, die neue Prozesse darstellen. Daher müssen Sie Ihre bestehenden Betriebsinvestitionen erweitern und neue Fähigkeiten erwerben.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
- Luiz Braz | Senior Technischer Spezialist
- Marco Aurelio Cardoso | Senior Software Engineer
- Paulo Lacerda | Cloud Solution Architect
- Ritesh Modi | Hauptsoftwareingenieur
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.