Beschreibungen und Anwendungsfälle zur Überwachung von Auswertungsmetriken
In diesem Artikel erfahren Sie mehr über die Metriken, die bei der Überwachung und Auswertung generativer KI-Modelle in Azure Machine Learning verwendet werden, und über die empfohlenen Praktiken für die Verwendung der Überwachung generativer KI-Modelle.
Wichtig
Die Überwachung ist derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung zum Servicelevel bereitgestellt und nicht für Produktionsworkloads empfohlen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Die Modellüberwachung verfolgt die Modellleistung in der Produktion und zielt darauf ab, sie sowohl aus Data Science- als auch aus betrieblicher Sicht zu verstehen. Um die Überwachung zu implementieren, verwendet Azure Machine Learning Überwachungssignale, die durch die Datenanalyse gestreamter Daten erhalten werden. Jedes Überwachungssignal verfügt über eine oder mehrere Metriken. Sie können Schwellenwerte für diese Metriken festlegen, um über Azure Machine Learning oder Azure Monitor Warnungen zu Modell- oder Datenanomalien zu erhalten.
Quellenübereinstimmung
Die Fundiertheit wertet aus, wie gut die vom Modell generierten Antworten auf Informationen aus der Eingabequelle ausgerichtet sind. Antworten werden als Behauptungen gegen den Kontext in der benutzerdefinierten Basiswahrheitsquelle überprüft: Selbst wenn Antworten wahr (sachlich richtig) sind, werden sie als nicht fundiert bewertet, wenn sie nicht anhand des Quelltexts überprüfbar sind. Antworten, die als Behauptungen auf „Kontext“ in der Basiswahrheitsquelle überprüft wurden (z. B. Ihre Eingabequelle oder Ihre Datenbank).
- Verwenden Sie es in folgenden Fällen: Sie befürchten, dass Ihre Anwendung Informationen generiert, die nicht Teil des trainierten Wissens Ihrer generativen KI sind (auch als nicht überprüfbare Informationen bezeichnet).|
- So lesen Sie es: Wenn die Antworten des Modells sehr fundiert sind, deutet dies darauf hin, dass die in den Antworten des KI-Systems behandelten Fakten durch die Eingabequelle oder die interne Datenbank nachprüfbar sind. Umgekehrt deuten niedrige Fundiertheitswerte darauf hin, dass die in den Antworten des KI-Systems erwähnten Fakten durch die Eingabequelle oder die interne Datenbank möglicherweise nicht ausreichend gestützt oder überprüfbar sind. In solchen Fällen könnten die vom Modell generierten Antworten ausschließlich auf dem vortrainierten Wissen basieren, das möglicherweise nicht mit dem spezifischen Kontext oder der Domäne der angegebenen Eingabe übereinstimmt
- Skalierung:
- 1 = „nicht fundiert“: Deutet darauf hin, dass Antworten durch die Eingabequelle oder die interne Datenbank nicht überprüft werden können.
- 5 = „perfekte Fundiertheit“ deutet darauf hin, dass die in den Antworten des KI-Systems behandelten Fakten durch die Eingabequelle oder die interne Datenbank überprüfbar sind.
Relevance
Die Relevanzmetrik misst das Ausmaß, in dem die vom Modell generierten Antworten relevant sind und in direktem Zusammenhang mit den vorgegebenen Fragen stehen. Wenn Benutzer mit einem generativen KI-Modell interagieren, stellen sie Fragen oder geben Äußerungen ein und erwarten aussagekräftige und kontextbezogene Antworten.
- Verwenden Sie es in folgenden Fällen: Sie möchten eine hohe Relevanz für die Antworten Ihrer Anwendung erzielen, um die Benutzererfahrung und den Nutzen Ihrer generativen KI-Systeme zu verbessern.
- So lesen Sie es: Antworten werden in ihrer Fähigkeit bewertet, die wichtigsten Punkte der Frage aus dem Kontext in der Basiswahrheitsquelle zu erfassen. Wenn die Antworten des Modells sehr relevant sind, deutet dies darauf hin, dass das KI-System die Eingabe versteht und kohärente und kontextuell angemessene Ausgaben erzeugen kann. Umgekehrt deuten niedrige Relevanzwerte darauf hin, dass die generierten Antworten möglicherweise nicht zum Thema passen, dass ihnen der Kontext fehlt oder dass sie die beabsichtigten Anfragen des Benutzers nicht angemessen beantworten.
- Skalierung:
- 1 = „irrelevant“ deutet darauf hin, dass die generierten Antworten möglicherweise nicht zum Thema passen, dass ihnen der Kontext fehlt oder dass sie die beabsichtigten Anfragen des Benutzers nicht angemessen beantworten.
- 5 = "perfekte Relevanz" deutet auf kontextuell angemessene Ausgaben hin.
Kohärenz
Kohärenz bewertet, wie gut das Sprachmodell eine Ausgabe erzeugen kann, die sich flüssig und natürlich liest und der menschlichen Sprache ähnelt. Wie gut vermittelt der Bot seine Botschaften in kurzer und klarer Form, unter Verwendung einer einfachen und angemessenen Sprache und unter Vermeidung unnötiger oder verwirrender Informationen? Wie einfach ist es für den Benutzer, die Bot-Antworten zu verstehen und ihnen zu folgen, und wie gut stimmen sie mit den Bedürfnissen und Erwartungen des Benutzers überein?
- Verwenden Sie es in folgenden Fällen: Sie möchten die Lesbarkeit und Benutzerfreundlichkeit der generierten Antworten Ihres Modells in realen Anwendungen testen.
- So lesen Sie es: Wenn die Antworten des Modells sehr kohärent sind, deutet dies darauf hin, dass das KI-System einen nahtlosen, gut strukturierten Text mit reibungslosen Übergängen generiert. Konsistenter Kontext im gesamten Text verbessert die Lesbarkeit und das Verständnis. Niedrige Kohärenz bedeutet, dass die Qualität der Sätze in der vorhergesagten Antwort eines Modells schlecht ist und sie nicht natürlich zusammenpassen. Dem generierten Text fehlt möglicherweise ein logischer Fluss, und die Sätze erscheinen möglicherweise nicht zusammenhängend, was es für Leser schwierig macht, den Gesamtkontext oder die beabsichtigte Nachricht zu verstehen. Die Antworten werden in ihrer Klarheit, Kürze, angemessenen Sprache und Übereinstimmung mit den definierten Bedürfnissen und Erwartungen der Benutzer bewertet
- Skalierung:
- 1 = „nicht kohärent“: deutet darauf hin, dass die Qualität der Sätze in der vorhergesagten Antwort eines Modells schlecht ist und sie nicht natürlich zusammenpassen. Dem generierten Text fehlt möglicherweise ein logischer Fluss, und die Sätze erscheinen möglicherweise nicht zusammenhängend, was es für Leser schwierig macht, den Gesamtkontext oder die beabsichtigte Nachricht zu verstehen.
- 5 = „perfekt kohärent“: deutet darauf hin, dass das KI-System nahtlosen, gut strukturierten Text mit reibungslosen Übergängen und konsistentem Kontext im gesamten Text generiert, der die Lesbarkeit und das Verständnis verbessert.
Geläufigkeit
Geläufigkeit bewertet die Sprachkompetenz der vorhergesagten Antwort einer generativen KI. Sie bewertet, wie gut der generierte Text grammatikalische Regeln, syntaktische Strukturen und die angemessene Verwendung des Vokabulars einhält, was zu sprachlich korrekten und natürlich klingenden Antworten führt. Antworten werden an der Qualität einzelner Sätze gemessen, und ob sie gut geschrieben und grammatikalisch korrekt sind. Diese Metrik ist nützlich, wenn die Fähigkeit des Sprachmodells bewertet wird, einen Text zu erzeugen, der die richtige Grammatik, Syntax und Verwendung des Vokabulars einhält.
- Verwenden Sie es in folgenden Fällen: Sie möchten die grammatikalische und sprachliche Genauigkeit der vorhergesagten Antworten der generativen KI bewerten.
- So lesen Sie es: Wenn die Antworten des Modells sehr kohärent sind, deutet dies darauf hin, dass das KI-System grammatikalische Regeln befolgt und ein entsprechendes Vokabular verwendet. Konsistenter Kontext im gesamten Text verbessert die Lesbarkeit und das Verständnis. Umgekehrt deuten niedrige Werte für die Geläufigkeit auf Probleme mit grammatikalischen Fehlern und unbeholfenen Formulierungen hin, die den Text für praktische Anwendungen weniger geeignet machen.
- Skalierung:
- 1 = „zögernd“ deutet auf Probleme mit grammatikalischen Fehlern und unbeholfenen Formulierungen hin, die den Text für praktische Anwendungen weniger geeignet machen.
- 5 = „perfekte Geläufigkeit“ deutet darauf hin, dass das KI-System grammatikalische Regeln befolgt und ein entsprechendes Vokabular verwendet. Konsistenter Kontext im gesamten Text verbessert die Lesbarkeit und das Verständnis.
Ähnlichkeit
Die Ähnlichkeit quantifiziert die Ähnlichkeit zwischen einem Basiswahrheitssatz (oder Dokument) und dem Vorhersagesatz, der von einem KI-Modell generiert wird. Sie wird berechnet, indem zuerst Einbettungen auf Satzebene für die Basiswahrheit und die Vorhersage des Modells berechnet werden. Diese Einbettungen stellen hochdimensionale Vektordarstellungen der Sätze dar, die ihre semantische Bedeutung und ihren Kontext erfassen.
- Verwenden Sie es in folgenden Fällen: Sie möchten die Leistung eines KI-Modells objektiv bewerten (für Texterstellungsaufgaben, bei denen Sie Zugriff auf die gewünschten Basiswahrheitsantworten haben). Mit Ada-Ähnlichkeit können Sie den generierten Text mit dem gewünschten Inhalt vergleichen.
- So lesen Sie es: Antworten werden auf Äquivalenzen mit der Basiswahrheitsantwort bewertet, indem die gleichen Informationen und Bedeutungen wie bei der Basiswahrheitsantwort für die jeweilige Frage erfasst werden. Eine hoher Ada-Ähnlichkeitswert deutet darauf hin, dass die Vorhersage des Modells kontextuell ähnlich zur Basiswahrheit ist, was auf genaue und relevante Ergebnisse hinweist. Umgekehrt impliziert ein niedriger Ada-Ähnlichkeitswert eine Nichtübereinstimmung oder Divergenz zwischen der Vorhersage und der tatsächlichen Basiswahrheit, was auf Ungenauigkeiten oder Mängel in der Leistung des Modells hinweisen kann.
- Skalierung:
- 1 = „Nicht-Äquivalenz“ deutet auf eine Nichtübereinstimmung oder Divergenz zwischen der Vorhersage und der tatsächlichen Basiswahrheit hin, was auf Ungenauigkeiten oder Mängel in der Leistung des Modells hinweisen kann.
- 5 = „Perfekte Äquivalenz“ deutet darauf hin, dass die Vorhersage des Modells kontextuell ähnlich zur Basiswahrheit ist, was auf genaue und relevante Ergebnisse hinweist.