GenAIOps für MLOps-Praktiker
Dieser Artikel enthält einen Leitfaden für Workloadteams mit vorhandenen MLOps-Investitionen, die diese Investitionen erweitern möchten, um generative KI in ihren Workload einzubeziehen. Um eine generative KI-Workload zu operationalisieren, müssen Sie Ihre MLOps-Investitionen mit GenAIOps erweitern (manchmal auch als LLMOps bezeichnet). In diesem Artikel werden technische Muster beschrieben, die zwischen herkömmlichem maschinellem Lernen und generativen KI-Workloads und bestimmten Mustern für generative KI üblich sind. Der Artikel hilft Ihnen zu verstehen, wo Sie vorhandene Investitionen in die Operationalisierung anwenden können und wo Sie diese Investitionen erweitern müssen.
Technische Muster für generative KI
Generative KI-Workloads unterscheiden sich von herkömmlichen Machine Learning-Workloads auf verschiedene Arten:
Fokus auf generativen Modellen – Beim herkömmlichen maschinellen Lernen liegt der Schwerpunkt drauf, neue Modelle für die Ausführung bestimmter Aufgaben zu trainieren. Generative KI-Workloads nutzen generative Modelle, die verwendet werden können, um eine größere Vielfalt von Anwendungsfällen zu behandeln, und in einigen Fällen sind diese auch multimodal.
Fokus auf die Erweiterung der Modelle – Die wichtigste Ressource im herkömmlichen Machine Learning ist das bereitgestellte Modell. Der Zugriff auf das Modell wird dem Clientcode in einem oder mehreren Workloads gewährt, aber der Workload ist nicht Teil des MLOps-Prozesses. Bei generativen KI-Lösungen ist ein wichtiger Aspekt der Lösung der Prompt, die dem generativen Modell bereitgestellt wird. Der Prompt muss zusammengesetzt sein und kann Daten aus einem oder mehreren Datenspeichern enthalten. Das System, das die Logik koordiniert, die verschiedenen Back-Ends aufruft, den Prompt generiert und das generative Modell aufruft, ist Teil des generativen KI-Systems, das Sie mit GenAIOps steuern müssen.
Während einige generative KI-Lösungen herkömmliche Machine Learning-Vorgehensweisen wie Training und und Feinabstimmung von Modellen verwenden, führen sie alle neue Muster ein, die Sie standardisieren sollten. In diesem Abschnitt finden Sie eine Übersicht über die drei allgemeinen Kategorien technischer Muster für generative KI-Lösungen:
- Vorabtraining und Feinabstimmung
- Eingabeaufforderungsengineering
- Retrieval Augmented Generation (RAG)
Training und Feinabstimmung von Sprachmodellen
Derzeit verwenden viele generative KI-Lösungen vorhandene Basissprachmodelle, die vor der Verwendung keine Feinabstimmung erfordern. Es gibt jedoch Anwendungsfälle, die von einer Feinabstimmung eines Grundmodells oder der Schulung eines neuen generativen KI-Modells, wie z. B. eines Small Language Model (SLM), profitieren können und dies auch tun.
Das Training eines neuen SLM oder die Feinabstimmung eines generativen Basismodells sind logisch die gleichen Prozesse wie das Training herkömmlicher Machine Learning-Modelle. Diese Prozesse sollten Ihre vorhandenen MLOps-Investitionen nutzen.
Eingabeaufforderungsengineering
Prompt Engineering umfasst alle Prozesse, die am Generieren eines Prompts beteiligt sind, der als Eingabe an ein generatives Modell gesendet wird. Es gibt in der Regel einen Orchestrator, der einen Workflow zum Generieren des Prompts steuert. Der Orchestrator kann eine beliebige Anzahl von Datenspeichern aufrufen, um Informationen zu sammeln, z. B. Grounding-Daten, und die erforderliche Logik anwenden, um den effektivsten Prompt zu generieren. Der Orchestrator wird dann als API-Endpunkt bereitgestellt, auf den der Clientcode in einer intelligenten Anwendung zugreift.
Abbildung 1. Prompt Engineering-Architektur
Diese Kategorie von technischen Mustern kann viele Anwendungsfälle behandeln, darunter:
- Klassifizierung
- Sprachübersetzung
- Zusammenfassung
- Retrieval-augmented Generation, die im nächsten Abschnitt erläutert wird
Retrieval Augmented Generation
Retrieval Augmented Generation (RAG) ist ein architekturbezogenes Muster, das Prompt Engineering verwendet, dessen Ziel es ist, domänenspezifische Daten als Grounding-Daten für ein Sprachmodell zu verwenden. Das Sprachmodell wird anhand einer bestimmten Datenmenge trainiert. Ihr Workload erfordert möglicherweise eine Begründung für Daten, die für Ihr Unternehmen, Ihre Kunden oder Ihre Domäne spezifisch sind. Bei RAG-Lösungen werden Ihre Daten abgefragt, und die Ergebnisse werden dem Sprachmodell als Teil des Prompts bereitgestellt, in der Regel über eine Orchestrierungsebene.
Eine gängige RAG-Implementierung besteht darin, Ihre Dokumente in Blöcke aufzuteilen und in einem Vektorspeicher zusammen mit Metadaten zu speichern. Vektorspeicher, z. B. Azure KI-Suche, ermöglichen es Ihnen, sowohl Text- als auch Vektor-Ähnlichkeitssuchen auszuführen, um kontextbezogene relevante Ergebnisse zurückzugeben. RAG-Lösungen können auch andere Datenspeicher verwenden, um Grounding-Daten zurückzugeben.
Abbildung 2. Architektur der Retrieval-augmented Generation (RAG)
Erweitern von MLOps für technische Muster der generativen KI
In diesem Abschnitt untersuchen wir die folgenden Schlüsselaspekte der Phasen der inneren und äußeren Schleife für die technischen Muster der generativen KI, um zu sehen, wo Sie Ihre bestehenden MLOps-Investitionen anwenden können und wo Sie sie erweitern müssen:
Innere Schleife
Äußere Schleife
- Bereitstellung
- Inferenzen/Überwachung
- Feedbackschleife
DataOps
Sowohl MLOps als auch GenAIOps verwenden die Grundlagen von DataOps, um erweiterbare und reproduzierbare Workflows zu erstellen und um sicherzustellen, dass Daten bereinigt, transformiert und ordnungsgemäß für Experimente und Auswertungen formatiert werden. Die Workflowreproduzierbarkeit und Datenversionsverwaltung sind wichtige Features für DataOps für alle technischen Muster, während die Quellen, Typen und Absichten der Daten musterabhängig sind.
Training und Feinabstimmung
Dieses technische Muster sollte Ihre vorhandenen DataOps-Investitionen, die Sie im Rahmen Ihrer MLOps-Implementierung getätigt haben, vollständig nutzen. Die Reproduzierbarkeit und Datenversionierung ermöglicht es Ihnen, mit verschiedenen Daten aus dem Feature Engineering zu experimentieren, die Leistung verschiedener Modelle zu vergleichen und Ergebnisse zu reproduzieren.
RAG und Prompt Engineering
Die Daten in RAG-Lösungen sollen Grounding-Daten bereitstellen, die dem Sprachmodell als Teil eines Prompts präsentiert werden. RAG-Lösungen erfordern oft die Verarbeitung großer Dokumente in eine Sammlung von Blöcken in der richtigen Größe und mit semantischer Relevanz und die dauerhafte Speicherung dieser Blöcke in einem Vektorspeicher. Weitere Informationen finden Sie unter Entwerfen und Entwickeln einer RAG-Lösung. Mit der Reproduzierbarkeit und Datenversionsverwaltung für RAG-Lösungen können Sie mit verschiedenen Blöcken und Einbettungsstrategien experimentieren, die Leistung vergleichen und auf frühere Versionen zurücksetzen.
Datenpipelines für das Chunking von Dokumenten sind nicht Teil von DataOps in herkömmlichen MLOps, sodass Sie sowohl Ihre Architektur als auch Ihre Vorgänge erweitern müssen. Die Datenpipelines können Daten aus mehreren unterschiedlichen Quellen mit strukturierten und unstrukturierten Daten lesen. Sie können auch die transformierten Daten in verschiedene Ziele schreiben. Sie müssen Ihre Architektur erweitern, um die Datenspeicher einzuschließen, die Sie für das Grounding von Daten verwenden. Allgemeine Datenspeicher für diese Muster sind Vektorspeicher wie Azure KI-Suche. Wie bei Training und Feinabstimmungen können Sie Azure Machine Learning-Pipelines oder andere Datenpipelinetools nutzen, um die Chunking-Phasen zu koordinieren. Sie können die Prompt-Flows in Azure Machine Learning-Pipelines nutzen, um Ihre Daten auf konsistente und reproduzierbare Weise zu verarbeiten und anzureichern. Außerdem müssen Sie Ihre Vorgänge erweitern, um die Aktualität und Gültigkeit der Suchindizes in den Datenspeichern aufrechtzuerhalten.
Experimentieren
Als Teil der inneren Schleife ist das Experimentieren der iterative Prozess des Erstellens, Auswertens (im nächsten Abschnitt behandelt) und des Verfeinerns Ihrer Lösung. In den folgenden Abschnitten wird das Experimentieren für die gängigen technischen Muster der generativen KI erläutert.
Training und Feinabstimmung
Wenn Sie ein vorhandenes Sprachmodell optimieren oder ein kleines Sprachmodell trainieren, können Sie Ihre aktuellen MLOps-Investitionen nutzen. Beispielsweise bieten Azure Machine Learning-Pipelines ein robustes Toolkit zum effizienten und effektiven Durchführen von Experimenten. Mit diesen Pipelines können Sie den gesamten Feinabstimmungsprozess von der Datenvorverarbeitung bis hin zum Modellieren von Trainings und Auswertungen verwalten.
RAG und Prompt Engineering
Das Experimentieren mit Prompt Engineering- und RAG-Workloads erfordert eine Erweiterung Ihrer MLOps-Investitionen. Bei diesen technischen Mustern endet die Workload nicht mit dem Modell. Ihre Workload erfordert einen Orchestrator, der weiß, wie Logik ausgeführt werden kann, Anrufdatenspeicher für erforderliche Informationen wie Erdungsdaten, Generieren von Eingabeaufforderungen, Aufrufen von Sprachmodellen und vieles mehr. Die Datenspeicher und die Indizes in den Speichern sind ebenfalls Teil der Workloads. Ihre Vorgänge müssen erweitert werden, um diese Aspekte der Workload zu steuern.
Es gibt mehrere Dimensionen, mit denen man experimentieren kann, um schnelle technische Lösungen zu finden, darunter verschiedene Anweisungen, Personas, Beispiele, Einschränkungen und fortgeschrittene Techniken wie Prompt Chaining. Wenn Sie mit RAG-Lösungen experimentieren, gibt es zusätzliche Bereiche, mit denen Sie experimentieren können, einschließlich der folgenden:
- Chunking-Strategie
- Bestimmen, was und wie Sie es anreichern
- Ihr Einbettungsmodell
- Konfiguration des Suchindexes
- Welche Suchvorgänge ausgeführt werden sollen (Vektor, Volltext, Hybrid usw.)
Wie in DataOps erläutert, sind die Schlüssel zum Experimentieren die Vorgänge der Reproduzierbarkeit und Datenversionsverwaltung. Mit einem guten Experimentframework können Sie Eingaben, z. B. Änderungen an Hyperparametern oder Prompts, zusammen mit den Ausgaben speichern, die beim Auswerten des Experiments verwendet werden sollen.
Wie bei Ihrer vorhandenen MLOps-Umgebung können Sie Frameworks wie Azure Machine Learning-Pipelines nutzen. Azure Machine Learning-Pipelines verfügen über Features, die die Indizierung unterstützen und in Vektorspeicher wie Azure KI-Suche integriert werden. Ihre GenAIOps-Umgebung kann diese Features von Pipelines nutzen und sie mit Prompt-Flow-Features kombinieren, die Prompt Engineering und benutzerdefinierte Vorverarbeitungslogik verwalten.
Evaluieren und Experimentieren
Die Auswertung ist der Schlüssel zum iterativen Experimentierprozess, um Ihre Lösung zu erstellen, zu bewerten und zu verfeinern. Die Auswertung Ihrer Änderungen liefert Ihnen das Feedback, das erforderlich ist, um Ihre Verfeinerungen vorzunehmen oder zu überprüfen, ob die aktuelle Iteration Ihre Anforderungen erfüllt. In den folgenden Abschnitten wird die Auswertung in der Experimentierphase für die gängigen technischen Muster der generativen KI erörtert.
Training und Feinabstimmung
Die Bewertung fein abgestimmter oder trainierter generativer KI-Modelle sollte Ihre vorhandenen MLOps-Investitionen nutzen. Wenn Sie beispielsweise Azure Machine Learning-Pipelines verwenden, um Ihr Machine Learning-Modelltraining zu koordinieren, können Sie dieselben Auswertungsfeatures für Feinabstimmung von Basissprachmodellen nutzen oder neue kleine Sprachmodelle trainieren. Diese Features umfassen die Nutzung der Evaluate Model-Komponente, die branchenübliche Auswertungsmetriken für bestimmte Modelltypen berechnet und Ergebnisse über Modelle hinweg vergleicht.
RAG und Prompt Engineering
Sie müssen Ihre bestehenden MLOps-Investitionen erweitern, um generative KI-Lösungen auszuwerten. Sie können Tools wie den Prompt-Flow nutzen, der ein robustes Framework für die Auswertung bietet. Mit Prompt-Flows können Teams benutzerdefinierte Auswertungslogik definieren, Kriterien und Metriken angeben, um die Leistung verschiedener Promptvarianten und Sprachmodelle (LLMs) zu bewerten. Dieser strukturierte Ansatz ermöglicht den parallelen Vergleich verschiedener Konfigurationen, z. B. Hyperparameteranpassungen oder Architekturvariationen, die optimale Einrichtung für bestimmte Aufgaben zu identifizieren.
Aufträge im Prompt-Flow erfassen automatisch Eingabe- und Ausgabedaten während des gesamten Experimentiervorgangs und erstellen einen umfassenden Testdatensatz. Durch die Analyse dieser Daten können Sie Erkenntnisse gewinnen und vielversprechende Konfigurationen ermitteln, die in zukünftige Iterationen einfließen können. Sie können die Entwicklung Ihrer generativen KI-Lösungen beschleunigen, indem Sie effiziente und systematische Experimente mithilfe von Prompt-Flows durchführen.
Der Experimentiervorgang ist unabhängig vom Anwendungsfall für Ihre generative KI-Lösung identisch, z. B. Klassifizierung, Zusammenfassung, Übersetzung oder sogar RAG. Der wichtige Unterschied ist die Metrik, die Sie zum Auswerten der verschiedenen Anwendungsfälle verwenden. Im Folgenden sind einige Beispiele für Metriken aufgeführt, die Sie pro Anwendungsfall berücksichtigen sollten:
- Übersetzung: BLEU
- Zusammenfassung: ROUGE. BLEU, BERTScore, METEOR
- Klassifizierung: Präzision, Recall, Genauigkeit, Kreuzentropie
- RAG: Geerdetheit, Relevanz
Hinweis
Weitere Informationen zur Bewertung von Sprachmodellen und RAG-Lösungen finden Sie unter End-to-End-Evaluierung der LLM .
Generative KI-Lösungen erweitern im Allgemeinen die Verantwortlichkeiten des Machine Learning-Teams vom Training der Modelle bis hin zu Prompt Engineering und Verwalten der Grounding-Daten. Da Prompt Engineering und RAG-Experimentieren und -Auswerten nicht notwendigerweise Data Scientists erfordern, ist es verlockend, diese Funktionen mit anderen Rollen wie Softwareingenieuren und Dateningenieuren auszuführen. Sie werden auf Herausforderungen stoßen, wenn Sie Datenwissenschaftler nicht in die Erprobung von Prompt Engineering- und RAG-Lösungen einbeziehen. Andere Rollen werden nicht wie viele Data Scientists darin geschult, wie man die Ergebnisse wissenschaftlich auswertet. Lesen Sie die siebenteilige Artikelreihe Entwerfen und Entwickeln einer RAG-Lösung, um ein Verständnis für die Komplexität des Entwerfens von generativen KI-Lösungen zu erhalten.
Wenn Sie in generative KI-Lösungen investieren, können Sie einen gewissen Druck von Ihren Data Science-Ressourcen nehmen. Die Rolle der Softwareingenieure wächst bei diesen Lösungen. Softwareingenieure sind beispielsweise großartige Ressourcen, um die Orchestrierungsverantwortung in generativen KI-Lösungen zu verwalten, und sie sind bereit, die Auswertungsmetriken in Tools wie z. B. Prompt-Flows einzurichten. Es ist wichtig, dass diese Arbeit unter dem wachten Auge Ihrer Data Scientists durchgeführt wird. Data Scientists haben die Ausbildung und Erfahrung, um zu verstehen, wie die Experimente richtig ausgewertet werden.
Bereitstellung
Einige generative KI-Lösungen umfassen die Bereitstellung von benutzerdefinierten trainierten Modellen oder die Feinabstimmung vorhandener Modelle, andere wiederum nicht. Generative KI-Lösungen bringen zusätzliche Verantwortung für die Bereitstellung der Orchestrierungskomponenten und Datenspeicher mit sich. In den folgenden Abschnitten wird die Bereitstellung für die gängigen technischen Muster der generativen KI erläutert.
Training und Feinabstimmung
Durch die Bereitstellung von generativen KI-Modellen und Feinabstimmungsmodellen sollten Ihre vorhandenen MLOps-Investitionen mit einigen möglichen Anpassungen verwendet werden. Zum Optimieren eines großen Sprachmodells in Azure OpenAI müssen Sie beispielsweise sicherstellen, dass Ihre Trainings- und Validierungsdatensätze im JSONL-Format vorliegen und Sie die Daten über eine REST-API hochladen müssen. Sie müssen auch einen Feinabstimmungsauftrag erstellen. Durch die Bereitstellung eines trainierten kleinen Sprachmodells können Sie Ihre vorhandenen MLOps-Investitionen nutzen.
RAG und Prompt Engineering
Für RAG und Prompt Engineering gibt es zusätzliche Bedenken, die Sie bereitstellen müssen, einschließlich der Orchestrierungslogik, Änderungen an Datenspeichern wie Indizes oder Schemas sowie Änderungen an der Datenpipelinelogik. Die Orchestrierungslogik wird normalerweise in Frameworks wie Prompt-Flow, Semantic Kernel oder LangChain gekapselt. Sie können den Orchestrator für unterschiedliche Computeressourcen bereitstellen, einschließlich dieser Ressourcen, für die Sie derzeit benutzerdefinierte Modelle bereitstellen können. Beispiele für die Bereitstellung des Eingabeaufforderungsflusses für azure Machine Learning verwaltete Onlineendpunkte oder Azure-App Service finden Sie unter Baseline Azure OpenAI End-to-End-Chat-Referenzarchitektur. Für die Bereitstellung in Azure App Service werden der Datenfluss und seine Abhängigkeiten in der grundlegenden Azure OpenAI-Chat-Architektur als Container verpackt, eine Vorgehensweise, die die Portabilität und Konsistenz in verschiedenen Umgebungen erhöht.
Bereitstellungen von Änderungen an Datenbankressourcen wie Änderungen an Datenmodellen oder Indizes sind neue Verantwortlichkeiten, die in GenAIOps behandelt werden müssen. Eine gängige Vorgehensweise beim Arbeiten mit großen Sprachmodellen besteht darin, ein Gateway vor dem LLM zu verwenden.
Viele generative KI-Architekturen, die plattformgehostete Sprachmodelle nutzen, die z. B. von Azure OpenAI bereitgestellt wurden, enthalten ein Gateway wie Azure API Management. Zu den Gateway-Anwendungsfällen gehören Lastenausgleich, Authentifizierung, Überwachung und vieles mehr. Das Gateway kann eine Rolle bei der Bereitstellung neu trainierter oder fein abgestimmter Modelle spielen, sodass Sie neue Modelle schrittweise bereitstellen können. Die Verwendung eines Gateways zusammen mit der Modellversionsverwaltung ermöglicht es Ihnen, das Risiko beim Bereitstellen von Änderungen zu minimieren und bei Problemen auf frühere Versionen zurückzugehen.
Der Einsatz generativer KI-spezifischer Bedenken, wie z. B. des Orchestrators, sollte ordnungsgemäßen Betriebsverfahren folgen, wie z. B.:
- Strenge Tests, einschließlich Komponententests
- Integrationstests
- A/B-Tests
- End-to-End-Tests
- Bereitstellen von Strategien wie Canary- oder Blau/Grün-Bereitstellungen
Da die Bereitstellungsaufgaben für generative KI-Anwendungen über die modellbasierte Bereitstellung hinausgehen, benötigen Sie möglicherweise zusätzliche Auftragsrollen, um die Bereitstellung und Überwachung von Elementen wie der Benutzeroberfläche, dem Orchestrator und den Datenspeichern zu verwalten. Diese Rollen werden häufig an DevOps-Expertenkompetenzen ausgerichtet.
Ableiten und Überwachen
Die Ableitung ist der Prozess der Übergabe von Eingaben an ein trainiertes und bereitgestelltes Modell, das dann eine Antwort generiert. Sie sollten sowohl herkömmliche Machine Learning-Lösungen als auch generative KI-Lösungen aus drei Perspektiven überwachen: Betriebsüberwachung, Lernen aus Produktion und Ressourcenmanagement.
Betriebsüberwachung
Die Betriebsüberwachung befasst sich mit der Beobachtung der laufenden Vorgänge des Systems, einschließlich Datenvorgängen (DataOps) und Modelltrainings. Sie suchen nach Abweichungen, einschließlich Fehlern, Änderungen an Fehlerraten und Änderungen an Verarbeitungszeiten.
Für Modelltrainings und Feinabstimmungen beobachten Sie in der Regel die Datenvorgänge rund um die Verarbeitung von Funktionsdaten, Modelltrainings und Feinabstimmungen. Die Überwachung dieser inneren Schleifen sollte Ihre bestehenden MLOps- und DataOps-Investitionen nutzen.
Für Prompt Engineering in generativen KI-Lösungen müssen Sie zusätzliche Überwachungsaspekte berücksichtigen. Sie müssen die Datenpipelines überwachen, die die Grounding-Daten oder andere Daten verarbeiten, die zum Generieren von Prompts verwendet werden. Diese Verarbeitung kann Datenspeichervorgänge wie das Erstellen oder Neuerstellen von Indizes umfassen.
Lernen aus der Produktion
Ein kritischer Aspekt der Überwachung in der Ableitungsphase ist das Lernen aus der Produktion. Die Überwachung für herkömmliche Machine Learning-Modelle verfolgt Metriken wie Genauigkeit, Präzision und Rückruf verfolgt. Ein wichtiges Ziel ist es, sich vor Abweichungen bei Vorhersagen zu schützen. Lösungen, die generative Modelle zum Erstellen von Vorhersagen verwenden, z. B. mithilfe eines GPT-Modells für die Klassifizierung, sollten Ihre vorhandenen MLOps-Überwachungsinvestitionen verwenden.
Lösungen, die generative Modelle verwenden, um das Grounding von Daten durchzuführen, verwenden Metriken wie Geerdetheit, Vollständigkeit, Auslastung und Relevanz. Ziel ist es, sicherzustellen, dass das Modell die Abfrage vollständig beantwortet und die Antwort auf deren Kontext basiert. Hier schützen Sie sich vor Datendrift. Sie möchten sicherstellen, dass die Grounding-Daten und der Prompt, die Sie für das Modell bereitstellen, für die Benutzerabfrage maximal relevant sind.
Lösungen, die generative Modelle für nicht prädiktive Aufgaben verwenden, z. B. RAG-Lösungen, profitieren häufig von menschlichem Feedback, um die Nützlichkeitseinschätzungen der Endbenutzer zu bewerten. Benutzeroberflächen können Feedback wie Daumen nach oben/unten erfassen, und diese Daten können verwendet werden, um die Antworten regelmäßig auszuwerten.
Ein gängiges Muster für generative KI-Lösungen besteht darin, ein Gateway vor den generativen Modellen bereitzustellen. Einer der Anwendungsfälle für das Gateway ist die Überwachung der Basismodelle. Das Gateway kann zum Protokollieren von Prompts und Ausgaben verwendet werden.
Ein weiterer wichtiger Bereich zur Überwachung von generativen Lösungen ist die Inhaltssicherheit. Ziel ist es, schädliche oder unerwünschte Inhalte zu moderieren und zu erkennen. Azure KI Inhaltssicherheits-Studio ist ein Beispiel für ein Tool, mit dem Sie Inhalte moderieren können.
Ressourcenverwaltung
Für generative Lösungen, die Modelle verwenden, die als Dienst verfügbar sind, wie z. B. Azure OpenAI, gelten andere Anforderungen an das Ressourcenmanagement als für Modelle, die Sie selbst bereitstellen. Es geht nicht um die Infrastruktur, sondern um den Dienstdurchsatz, das Kontingent und die Drosselung. Azure OpenAI verwendet das Konzept von Token für Abrechnung, Drosselung und Kontingente. Sie sollten die Kontingentnutzung für Kostenmanagement und Leistungseffizienz überwachen. Mit Azure OpenAI können Sie die Tokenverwendung protokollieren.
Tools
Viele MLOps-Experten haben sich auf ein Toolkit geeinigt, um die verschiedenen Aktivitäten rund um Automatisierung, Nachverfolgung, Bereitstellung, Experimente usw. zu organisieren und die vielen gemeinsamen Bedenken und Implementierungsdetails dieser Prozesse zu abstrahieren. Eine gemeinsame einheitliche Plattform ist MLflow. Bevor Sie nach neuen Tools zur Unterstützung von GenAIOps-Mustern suchen, sollten Sie Ihre vorhandenen MLOps-Tools auf ihre Unterstützung für generative KI überprüfen. Beispielsweise unterstützt MLflow eine breite Palette von Features für Sprachmodelle.
MLOps- und GenAIOps-Reifemodelle
Als Teil Ihrer aktuellen MLOps-Investitionen haben Sie möglicherweise das MLOps-Reifemodell verwendet, um die Reife Ihrer Machine Learning-Vorgänge und -Umgebung zu bewerten. Wenn Sie Ihre MLOps-Investitionen für generative KI-Workloads erweitern, sollten Sie das GenAIOps-Reifegradmodell verwenden, um diese Vorgänge zu bewerten. Sie sind möglicherweise versucht, die beiden Reifegradmodelle zu kombinieren, wir empfehlen jedoch, jedes Modell unabhängig voneinander zu evaluieren. MLOps und GenAIOps werden sich unabhängig voneinander entwickeln. Zum Beispiel könnten Sie sich im MLOps-Reifegradmodell auf Stufe vier befinden, aber gerade erst mit generativer KI beginnen und bei diesem Modell vielleicht erst auf Stufe eins sein.
Zusammenfassung
Wenn Sie mit der Erweiterung Ihrer MLOps-Investitionen beginnen, um generative KI einzuschließen, ist es wichtig zu verstehen, dass Sie nicht von vorn beginnen müssen. Sie können Ihre vorhandenen MLOps-Investitionen für einige der generativen TECHNISCHEn KI-Muster verwenden. Die Feinabstimmung von generativen Modellen ist ein hervorragendes Beispiel. Es gibt Bereiche generativer KI-Lösungen, wie z. B. Prompt Engineering und RAG, die neue Prozesse darstellen. Sie müssen Ihre bestehenden Betriebsinvestitionen erweitern und neue Fähigkeiten erwerben.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
- Paulo Lacerda | Cloud Solution Architect - Microsoft
- Marco Aurelio Cardoso | Senior Software Engineer - Microsoft
- Luiz Braz | Sr. Technical Specialist - Microsoft
- Ritesh Modi | Principal Software Engineer - Microsoft
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.