Freigeben über


Definieren von „Qualität“: Auswertungssätze

In diesem Artikel werden Auswertungssätze und ihre Verwendung zur Sicherstellung der Qualität Ihrer Anwendung beschrieben.

Was ist ein Auswertungssatz?

Databricks empfiehlt, zum Messen der Qualität einen menschenmarkierten Auswertungssatz zu erstellen. Ein Auswertungssatz ist ein kuratierter, repräsentativer Satz mit Abfragen zusammen mit Grundwahrheitsantworten und (optional) mit den korrekten unterstützenden Dokumenten, die abgerufen werden sollen. Die menschliche Eingabe ist in diesem Prozess von entscheidender Bedeutung, da dadurch sichergestellt wird, dass der Auswertungssatz genau die Erwartungen und Anforderungen der Endbenutzer widerspiegelt.

Das Kuratieren menschlicher Bezeichnungen kann sehr zeitaufwändig sein. Sie können zunächst einen Auswertungssatz erstellen, der nur Fragen enthält, und die Antworten auf die Grundwahrheitsantworten im Laufe der Zeit hinzufügen. Mosaic AI Agent Evaluation kann die Qualität Ihrer Kette ohne Grundwahrheit bewerten, obwohl bei vorhandener Grundwahrheit zusätzliche Metriken wie die Korrektheit von Antworten berechnet werden.

Elemente eines guten Auswertungssatzes

Ein guter Auswertungssatz weist die folgenden Merkmale auf:

  • Repräsentativ: Er spiegelt genau die Vielfalt der Anforderungen wider, auf die die Anwendung in der Produktion stößt.
  • Anspruchsvoll: Der Satz sollte schwierige und vielfältige Fälle umfassen, um die Funktionen des Modells effektiv zu testen. Idealerweise enthält er auch negative Beispiele wie Fragen, die eine Prompteinschleusung veranlassen, oder Fragen, die versuchen, unangemessene Antworten von LLM zu erzeugen.
  • Ständig aktualisiert: Der Satz muss regelmäßig aktualisiert werden, um der Verwendung der Anwendung in der Produktion sowie der dynamischen Natur der indizierten Daten und möglicher Änderungen der Anwendungsanforderungen Rechnung zu tragen.

Databricks empfiehlt mindestens 30 Fragen im Auswertungssatz, idealerweise verwenden Sie 100 bis 200. Die besten Auswertungssätze wachsen im Laufe der Zeit und enthalten dann 1.000 Fragen.

Trainings-, Test und Validierungssätze

Um eine Übereinpassung zu vermeiden, empfiehlt Databricks die Aufteilung Ihres Auswertungssatzes in Trainings-, Test- und Validierungssätze:

  • Trainingssatz: ~ 70 % der Fragen. Wird für einen anfänglichen Durchlauf verwendet, um jedes Experiment auszuwerten und die mit dem höchsten Potenzial zu identifizieren.
  • Testsatz: ~20 % der Fragen. Wird zum Auswerten der leistungsfähigsten Experimente aus dem Trainingssatz verwendet.
  • Validierungssatz: ~10 % der Fragen. Wird vor der Bereitstellung eines Experiments in der Produktion für eine endgültige Validierungsprüfung verwendet.

Mosaic AI Agent Evaluation hilft Ihnen beim Erstellen eines Auswertungssatzes. Dazu wird eine webbasierte Chatschnittstelle für Ihre Projektbeteiligten bereitgestellt, damit diese Feedback zu den Ausgaben der Anwendung abgeben können. Die Ausgaben der Kette und das Feedback der Projektbeteiligten werden in Delta-Tabellen gespeichert, die dann in einem Auswertungssatz kuratiert werden können. Im Implementierungsabschnitt dieses Cookbooks unter Kuratieren eines Auswertungssatzes finden Sie praktische Anweisungen mit Beispielcode.