Auswertung von generativen KI-Anwendungen
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz verändert die Integration von Generative AI Operations (GenAIOps), wie Organisationen KI-Anwendungen entwickeln und bereitstellen. Da Unternehmen sich zunehmend auf KI verlassen, um die Entscheidungsfindung und Kundenerfahrungen zu verbessern und Innovationen voranzutreiben, kann die Bedeutung eines robusten Auswertungsrahmens nicht überbewertet werden. Die Auswertung ist ein wesentlicher Bestandteil des generativen KI-Lebenszyklus, um Vertrauen in KI-zentrierte Anwendungen zu schaffen. Wenn sie nicht sorgfältig entworfen werden, können diese Anwendungen Ausgaben erzeugen, die im Kontext, irrelevant oder nicht kohärent sind, was zu schlechten Kundenerfahrungen oder schlimmerem führt: Aufrechterhaltung gesellschaftlicher Stereotypen, Verbreitung von Falschinformationen, Aussetzung von Organisationen gegenüber Angriffen oder einer Vielzahl an anderen negativen Auswirkungen.
Evaluators sind hilfreich zur Bewertung der Häufigkeit und dem Schweregrad von Inhaltsrisiken oder unerwünschtem Verhalten in KI-Antworten. Durch die Durchführung iterativer, systematischer Auswertungen mit den richtigen Evaluators können Teams helfen, potenzielle Reaktionsqualitäten, Sicherheits- oder Sicherheitsbedenken während des gesamten Lebenszyklus der KI-Entwicklung zu messen und zu beheben, von der anfänglichen Modellauswahl bis hin zur Postproduktionsüberwachung. Auswertung innerhalb der GenAI Ops-Lebenszyklusproduktion.
Durch das Verständnis und die Implementierung effektiver Auswertungsstrategien in jeder Phase können Organisationen sicherstellen, dass ihre KI-Lösungen nicht nur den anfänglichen Erwartungen entsprechen, sondern sich auch in realen Umgebungen anpassen und gedeihen. Sehen wir uns an, wie die Auswertung in die drei kritischen Phasen des KI-Lebenszyklus passt.
Auswahl des Basismodells
Die erste Phase des KI-Lebenszyklus umfasst die Auswahl eines geeigneten Basismodells. Generative KI-Modelle variieren in Bezug auf Funktionen, Stärken und Einschränkungen stark, sodass es wichtig ist, zu bestimmen, welches Modell am besten zu Ihrem spezifischen Anwendungsfall passt. Während der Basismodellauswertung vergleichen Sie verschiedene Modelle, indem Sie ihre Ausgaben anhand einer Reihe von Kriterien testen, die für Ihre Anwendung relevant sind.
Wichtige Überlegungen in dieser Phase können Folgendes umfassen:
- Genauigkeit/Qualität: Wie gut generiert das Modell relevante und kohärente Antworten?
- Leistung bei bestimmten Aufgaben: Kann das Modell die Prompts und Inhalte verarbeiten, die für Ihren Anwendungsfall erforderlich sind? Wie sind die Latenz und die Kosten?
- Bias und ethische Überlegungen: Erzeugt das Modell Ausgaben, die schädliche Stereotypen aufrechterhalten oder fördern können?
- Risiko und Sicherheit: Besteht das Risiko, dass das Modells unsichere oder schädliche Inhalte generiert?
Sie können Azure KI Foundry-Benchmarks untersuchen, um Modelle für öffentlich verfügbare Datasets auszuwerten und zu vergleichen und gleichzeitig Benchmarkergebnisse für Ihre eigenen Daten zu generieren. Alternativ können Sie eines der vielen basisgenerativen KI-Modelle über das Azure KI Evaluation-SDK auswerten. Weitere Informationen finden Sie unter Auswerten von Modellendpunkten.
Präproduktionsauswertung
Nach der Auswahl eines Basismodells besteht der nächste Schritt darin, eine KI-Anwendung wie einen KI-basierten Chatbot, eine RAG-Anwendung (Retrieval-Augmented Generation), eine agentbasierte KI-Anwendung oder ein anderes generatives KI-Tool zu entwickeln. Nach der Entwicklung beginnt die Präproduktionsauswertung. Vor der Bereitstellung der Anwendung in einer Produktionsumgebung sind strenge Tests unerlässlich, um sicherzustellen, dass das Modell wirklich für den realen Einsatz bereit ist.
Die Präproduktionsauswertung umfasst:
- Tests mit Auswertungsdatasets: Diese Datasets simulieren realistische Benutzerinteraktionen, um sicherzustellen, dass die KI-Anwendung erwartungsgemäß ausgeführt wird.
- Identifizieren von Randfällen: Finden Sie Szenarios, in denen die Antwortqualität der KI-Anwendung beeinträchtigt ist oder unerwünschte Ausgaben erzeugt.
- Bewertung der Robustheit: Hiermit stellen Sie sicher, dass das Modell eine Reihe von Eingabevariationen ohne erhebliche Qualitäts- oder Sicherheitseinbußen verarbeiten kann.
- Messung der wichtigsten Metriken: Metriken wie die Groundedness der Antwort, Relevanz und Sicherheit werden ausgewertet, um die Produktionsbereitschaft zu bestätigen.
Die Präproduktionsphase dient als endgültige Qualitätsprüfung und reduziert das Risiko, eine KI-Anwendung bereitzustellen, die nicht den gewünschten Leistungs- oder Sicherheitsstandards entspricht.
- Bring Your Own Data: Sie können Ihre KI-Anwendungen in der Präproduktionsphase mit eigenen Auswertungsdaten in Azure KI Foundry auswerten oder die unterstützten Evaluators des Azure KI Evaluation-SDK (z. B. für Qualität und Sicherheit der generierten Inhalte) oder benutzerdefinierte Evaluators verwenden und die Ergebnisse im Azure KI Foundry-Portal ansehen.
- Simulatoren: Wenn Sie keine Auswertungsdaten (Testdaten) besitzen, können die Simulatoren des Azure KI Evaluation-SDK dabei helfen, themenbezogene Abfragen oder angriffsähnliche Abfragen zu generieren. Diese Simulatoren testen die Reaktion des Modells auf situationsgerechte oder angriffsähnliche Abfragen (Randfälle).
- Der Angriffssimulator fügt Abfragen ein, die potenzielle Sicherheitsbedrohungen nachahmen oder Jailbreaks versuchen, um Einschränkungen zu identifizieren und das Modell auf unerwartete Bedingungen vorzubereiten.
- Kontextgerechte Simulatoren generieren typische, relevante Unterhaltungen, die Sie von Benutzern erwarten, um die Qualität der Antworten zu testen.
Alternativ können Sie auch das Auswertungs-Widget von Azure KI Foundry verwenden, um Ihre generativen KI-Anwendungen zu testen.
Sobald zufriedenstellende Ergebnisse erzielt wurden, kann die KI-Anwendung in der Produktion bereitgestellt werden.
Postproduktionsüberwachung
Nach der Bereitstellung wechselt die KI-Anwendung in die Phase der Postproduktionsauswertung, auch als Onlineauswertung oder -überwachung bezeichnet. In dieser Phase wird das Modell in ein reales Produkt eingebettet und antwortet auf tatsächliche Benutzerabfragen. Die Überwachung stellt sicher, dass sich das Modell weiterhin wie erwartet verhält und sich an alle Änderungen des Benutzerverhaltens oder der Inhalte anpasst.
- Fortlaufende Leistungsnachverfolgung: Regelmäßige Messung der Reaktion der KI-Anwendung mithilfe wichtiger Metriken, um eine konsistente Ausgabequalität sicherzustellen
- Incident Response: Reagieren Sie schnell auf schädliche, unfaire oder unangemessene Ausgaben, die während des realen Einsatzes auftreten können.
Durch die kontinuierliche Überwachung des Verhaltens der KI-Anwendung in der Produktion können Sie qualitativ hochwertige Benutzererfahrungen aufrechterhalten und alle aufkommenden Probleme schnell beheben.
Zusammenfassung
Bei GenAIOps geht es darum, einen zuverlässigen und wiederholbaren Prozess für die Verwaltung von generativen KI-Anwendungen im gesamten Lebenszyklus zu entwickeln. Die Auswertung spielt in jeder Phase eine wichtige Rolle, von der Basismodellauswahl über Präproduktionstests bis hin zur kontinuierlichen Postproduktionsüberwachung. Durch systematisches Messen und Adressieren von Risiken und das Optimieren von KI-Systemen in jedem Schritt können Teams generative KI-Lösungen erstellen, die nicht nur leistungsfähig, sondern auch vertrauenswürdig und sicher für den realen Einsatz sind.
Cheat Sheet:
Zweck | Prozess | Parameter |
---|---|---|
Was wird ausgewertet? | Identifizieren oder Erstellen relevanter Evaluators | - Qualität und Leistung (Beispielnotebook für Qualität und Leistung) - Sicherheit (Beispielnotebook für Sicherheit) - Benutzerdefiniert (Notebook mit benutzerdefinierter Stichprobe) |
Welche Daten sollten Sie verwenden? | Hochladen oder Generieren relevanter Datasets | Generischer Simulator zur Messung der Qualität und Leistung (Beispielnotebook für den generischen Simulator) - Angriffssimulator zur Messung der Sicherheit (Beispielnotebook für den Angriffssimulator) |
Welche Ressourcen sollten die Auswertung durchführen? | Ausführen der Auswertung | – Lokale Ausführung – Remotecloudausführung |
Wie war die Leistung meines Modell/meiner App? | Ergebnisanalysen | Aggregierte Scores anzeigen, Details anzeigen, Scoredetails anzeigen, Auswertungsausführungen vergleichen |
Wie kann ich etwas verbessern? | Vornehmen von Änderungen an Modellen, Apps oder Evaluators | – Wenn die Auswertungsergebnisse nicht dem menschlichen Feedback entsprechen, passen Sie Ihren Evaluator an. – Wenn Auswertungsergebnisse dem menschlichen Feedback entsprechen, aber die Qualitäts-/Sicherheitsschwellenwerte nicht erfüllen, wenden Sie gezielte Maßnahmen an. |