Manuelles Auswerten der Leistung eines Modells
In den frühen Phasen der Entwicklung Ihrer generativen KI-App möchten Sie schnell experimentieren und iterieren. Um mühelos zu bewerten, ob Ihr ausgewähltes Sprachmodell und ihre App, erstellt mit prompt flow, Ihren Anforderungen entsprechen, können Sie Modelle und Abläufe im Azure KI Foundry-Portal manuell auswerten.
Selbst wenn Ihr Modell und die App bereits in der Produktion sind, sind manuelle Auswertungen ein wichtiger Bestandteil der Leistungsbewertung. Da manuelle Auswertungen von Menschen durchgeführt werden, können sie Erkenntnisse liefern, die automatisierten Metriken möglicherweise entgehen.
Sehen wir uns an, wie Sie Ihre ausgewählten Modelle und App im Azure KI Foundry-Portal manuell auswerten können.
Vorbereiten Ihrer Testprompts
Um mit dem manuellen Auswertungsprozess zu beginnen, ist es wichtig, eine Reihe unterschiedlicher Testprompts vorzubereiten, die den Umfang der Abfragen und Aufgaben widerspiegeln, die Ihre App verarbeiten soll. Diese Prompts sollten verschiedene Szenarien abdecken, einschließlich häufige Benutzerfragen, Grenzfälle und potenzielle Fehlerpunkte. Auf diese Weise können Sie die Leistung der App umfassend bewerten und Bereiche mit Verbesserungspotenzial ermitteln.
Testen des ausgewählten Modells im Chat-Playground
Wenn Sie eine Chatanwendung entwickeln, verwenden Sie ein Sprachmodell, um eine Antwort zu generieren. Sie erstellen eine Chatanwendung, indem Sie einen prompt flow entwickeln, der die Logik Ihrer Chatanwendung kapselt, die mehrere Sprachmodelle verwenden kann, um letztendlich eine Antwort auf eine Benutzerfrage zu generieren.
Bevor Sie die Antwort Ihrer App testen, können Sie die Antwort des ausgewählten Sprachmodells testen, um zu bestätigen, dass das einzelne Modell wie erwartet funktioniert. Sie können ein Modell, das Sie im Azure KI Foundry-Portal bereitgestellt haben, testen, indem Sie mit dem Modell im Chat-Playground interagieren.
Der Chat-Playground ist ideal für die frühe Entwicklungsphase. Sie können einen Prompt eingeben, sehen, wie das Modell reagiert, und den Prompt oder die Systemnachricht optimieren, um Verbesserungen vorzunehmen. Nachdem Sie die Änderungen angewendet haben, können Sie einen Prompt erneut testen, um auszuwerten, ob die Leistung des Modells tatsächlich verbessert wurde.
Auswerten mehrerer Prompts mit manuellen Auswertungen
Der Chat-Playground ist eine einfache Möglichkeit, loszulegen. Wenn Sie mehrere Prompts schneller manuell auswerten möchten, können Sie das Feature manuelle Auswertungen verwenden. Mit diesem Feature können Sie ein Dataset mit mehreren Fragen hochladen und optional eine erwartete Antwort hinzufügen, um die Leistung des Modells in einem größeren Testdataset auszuwerten.
Sie können die Antworten des Modells mit dem Feature „Daumen hoch“ oder „Daumen runter“ bewerten. Basierend auf der Gesamtbewertung können Sie versuchen, Ihr Modell zu verbessern, indem Sie den Eingabeprompt, die Systemmeldung, das Modell oder die Parameter des Modells ändern.
Wenn Sie manuelle Auswertungen verwenden, können Sie die Leistung des Modells anhand eines vielfältigen Testdatasets schneller auswerten und das Modell basierend auf den Testergebnissen verbessern.
Nachdem Sie ein einzelnes Modell manuell ausgewertet haben, können Sie das Modell in eine Chatanwendung mit einem prompt flow integrieren. Jeder Flow, den Sie mit einem prompt flow erstellen, kann auch manuell oder automatisch ausgewertet werden. Als Nächstes untersuchen wir die Auswertung von Flows.