Freigeben über


Einholen von Feedback zur Qualität einer Agentanwendung

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel erfahren Sie, wie Sie mit der Databricks-Rezensions-App Feedback von menschlichen Prüfern zur Qualität Ihrer Agentanwendung sammeln können. Er umfasst Folgendes:

  • Vorgehensweise zum Bereitstellen der Rezensions-App.
  • Einsatz der App durch Prüfer zum Abgeben von Feedback zu den Antworten der Agentanwendung.
  • Vorgehensweise von Experten zum Prüfen protokollierter Chats zwecks Verbesserungsvorschlägen und sonstigem Feedback über die App.

Was geschieht in einer menschlichen Auswertung?

Die Databricks-Überprüfungs-App stellt die LLM in einer Umgebung bereit, in der expertenbeteiligte Personen damit interagieren können – mit anderen Worten: Unterhaltungen führen, Fragen stellen, Feedback geben usw. Die Rezensions-App protokolliert alle Fragen, Antworten und das Feedback in einer Rückschlusstabelle, sodass Sie die Leistung des LLM weiter analysieren können. Auf diese Weise trägt die Prüf-App dazu bei, die Qualität und Sicherheit der Antworten zu gewährleisten, die Ihre Anwendung bereitstellt.

Stakeholder können mit dem Anwendungsbot chatten und Feedback zu diesen Unterhaltungen abgeben oder Feedback zu historischen Protokollen, kuratierten Ablaufverfolgungen oder Agent-Ausgaben abgeben.

Anforderungen

  • Rückschlusstabellen müssen auf dem Endpunkt aktiviert werden, der den Agent bedient.

  • Jeder menschliche Prüfer muss Zugriff auf den Arbeitsbereich der Rezensions-App haben oder mit Ihrem Databricks-Konto mit SCIM synchronisiert werden. Weitere Informationen finden Sie im nächsten Abschnitt: Einrichten von Berechtigungen für die Verwendung der Rezensions-App.

  • Entwickler müssen das databricks-agents-SDK installieren, um Berechtigungen einzurichten und die Bewertungs-App zu konfigurieren.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

Einrichten von Berechtigungen für die Verwendung der Rezensions-App

Hinweis

Menschliche Prüfer benötigen keinen Zugriff auf den Arbeitsbereich, um die Rezensions-App zu verwenden.

Sie können allen Benutzern in Ihrem Databricks-Konto Zugriff auf die Rezensions-App gewähren, auch wenn sie keinen Zugriff auf den Arbeitsbereich haben, der die Rezensions-App enthält.

  • Für Benutzer, die keinen Zugriff auf den Arbeitsbereich haben, verwendet ein Kontoadministrator die SCIM-Bereitstellung auf Kontoebene, um Benutzer und Gruppen automatisch von Ihrem Identitätsanbieter mit Ihrem Azure Databricks-Konto zu synchronisieren. Sie können diese Benutzer und Gruppen auch manuell registrieren, um ihnen Zugriff zu gewähren, wenn Sie Identitäten in Databricks einrichten. Weitere Informationen finden Sie unter Synchronisieren von Benutzer*innen und Gruppen über Microsoft Entra ID.
  • Für Benutzer, die bereits Zugriff auf den Arbeitsbereich haben, der die Rezensions-App enthält, ist keine zusätzliche Konfiguration erforderlich.

Das folgende Codebeispiel zeigt, wie Sie Benutzern die Berechtigung für die Überprüfungs-App für einen Agent erteilen. Der users Parameter akzeptiert eine Liste von E-Mail-Adressen.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Um ein Chatprotokoll zu überprüfen, muss ein Benutzer über die CAN_REVIEW Berechtigung verfügen.

Bereitstellen der Rezensions-App

Wenn Sie einen Agent über agents.deploy() bereitstellen, wird die Rezensions-App automatisch aktiviert und bereitgestellt. Die Ausgabe des Befehls zeigt die URL für die Rezensions-App. Weitere Informationen zum Bereitstellen eines Agents finden Sie unter Bereitstellen eines Agents für generative KI-Anwendungen.

Link zur Rezensions-App aus der Notebook-Befehlsausgabe

Falls der Link zur Bereitstellung verlorengehen sollte, können Sie ihn über list_deployments() finden.

from databricks import agents

deployments = agents.list_deployments()
deployments

Benutzeroberfläche der Rezensions-App

Klicken Sie zum Öffnen der Rezensions-App auf die angegebene URL. Die Benutzeroberfläche der Rezensions-App verfügt über drei Registerkarten in der linken Randleiste:

Wenn Sie die Rezensions-App öffnen, wird die Seite mit den Anweisungen angezeigt.

Eröffnungsbildschirm der Rezensions-App

Bereitstellen von Anweisungen für Prüfer

Verwenden Sie zum Bereitstellen benutzerdefinierter Texte für die den Prüfern angezeigten Anweisungen den folgenden Code:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Screenshot der Anweisungen für die Überprüfungs-App, die das Python-Beispiel angegeben haben.

Chatten mit der App und Abgeben von Bewertungen

Gehen Sie zum Chatten mit der App und Abgeben von Bewertungen folgendermaßen vor:

  1. Klicken Sie in der linken Randleiste auf Bot testen.

  2. Geben Sie Ihre Frage in das Feld ein und drücken Sie die Returntaste oder Eingabetaste oder klicken Sie auf den Pfeil im Feld. Die App zeigt ihre Antwort auf Ihre Frage an sowie die Quellen, anhand derer sie die Antwort gefunden hat.

  3. Bewerten Sie die Antwort der App und wählen Sie Ja, Nein oder Ich weiß nicht aus.

  4. Die App fragt nach weiteren Informationen. Markieren Sie die entsprechenden Felder oder geben Sie Ihre Kommentare in das dafür vorgesehene Feld ein.

  5. Sie können die Antwort auch direkt bearbeiten, um die Antwort zu verbessern. Klicken Sie zum Bearbeiten der Antwort auf Antwort bearbeiten, nehmen Sie ihre Änderungen im Dialog vor und klicken Sie auf Speichern, wie im folgenden Video gezeigt.

    Vorgehensweise zum Bearbeiten einer Antwort

  6. Klicken Sie auf Fertig, um Ihr Feedback zu speichern.

  7. Stellen Sie weiter Fragen, um mehr Feedback abzugeben.

Dieser Workflow wird im folgenden Diagramm veranschaulicht.

  1. Über die Rezensions-App chattet der Prüfer mit der Agentanwendung.
  2. Über die Rezensions-App gibt der Prüfer Feedback zu den Antworten der Anwendung ab.
  3. Alle Anforderungen, Antworten und das Feedback werden in Rückschlusstabellen protokolliert.

Führen Sie die Rezensions-App aus, in der Experten mit der Agentanwendung chatten und Feedback geben.

Verfügbarmachen von Chatprotokollen zur Bewertung durch Experten

Wenn ein Benutzer über die REST-API oder die Rezensions-App mit einer App interagiert, werden alle Anforderungen, Antworten und zusätzliches Feedback in Rückschlusstabellen gespeichert. Die Rückschlusstabellen befinden sich im selben Unity Catalog-Katalog und -Schema, in dem das Modell registriert wurde, und haben die Namen <model_name>_payload, <model_name>_payload_assessment_logs und <model_name>_payload_request_logs. Weitere Informationen zu diesen Tabellen, einschließlich der Schemas, finden Sie unter Agent-erweiterte Rückschlusstabellen.

Zum Hochladen dieser Protokolle in die Rezensions-App für die Bewertung durch Experten müssen Sie zuerst die request_id finden und die Bewertung für diese request_id wie folgt aktivieren:

  1. Suchen Sie die zu bewertenden request_id in der Rückschlusstabelle <model_name>_payload_request_logs. Die Rückschlusstabelle befindet sich im selben Unity Catalog-Katalog und -Schema, in dem das Modell registriert wurde.

  2. Verwenden Sie Code der folgenden Art, um die zu bewertenden Protokolle in die Rezensions-App zu laden:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. Die Ergebniszelle enthält einen Link zur Rezensions-App mit den ausgewählten und zur Bewertung hochgeladenen Protokollen.

Rezensions-App mit geladenen Chatprotokollen zur Bewertung durch Experten

Bewertung von Protokollen der Interaktionen anderer Benutzer mit der App durch Experten

Damit Protokolle vorangehender Chats bewertet werden können, müssen die Protokolle zur Bewertung aktiviert sein. Siehe Verfügbarmachen von Chatprotokollen zur Bewertung durch Experten.

  1. Wählen Sie in der linken Randleiste der Rezensions-App Zu bewertende Chats aus. Die aktivierten Anforderungen werden angezeigt.

    Zur Bewertung aktivierte Chats

  2. Klicken Sie auf eine Anforderung, damit Sie zur Bewertung angezeigt wird.

  3. Bewerten Sie die Anforderung und die Antwort. Die App zeigt auch die als Referenz herangezogenen Quellen an. Sie können sie anklicken, um die Referenz zu bewerten und Feedback zur Relevanz der Quelle abzugeben.

  4. Wählen Sie zum Abgeben von Feedback zur Qualität der Antwort Ja, Nein oder ich weiß nicht aus.

  5. Die App fragt nach weiteren Informationen. Markieren Sie die entsprechenden Felder oder geben Sie Ihre Kommentare in das dafür vorgesehene Feld ein.

  6. Sie können die Antwort auch direkt bearbeiten, um die Antwort zu verbessern. Klicken Sie zum Bearbeiten der Antwort auf Antwort bearbeiten, nehmen Sie ihre Änderungen im Dialog vor und klicken Sie auf Speichern. Unter Chatten mit der App und Abgeben von Bewertungen finden Sie ein Video, in dem die Vorgehensweise dargestellt wird.

  7. Klicken Sie auf Fertig, um Ihr Feedback zu speichern.

Dieser Workflow wird im folgenden Diagramm veranschaulicht.

  1. Über die Rezensions-App oder eine benutzerdefinierte App chatten Prüfer mit der Agentanwendung.
  2. Alle Anforderungen und Antworten werden in Rückschlusstabellen protokolliert.
  3. Anwendungsentwickler können über enable_trace_reviews([request_id]) (wobei request_id aus der <model_name>_payload_request_logs Rückschlusstabelle stammt) Chatprotokolle zur Bewertung der App posten.
  4. Über die Rezensions-App bewertet der Experte Protokolle und gibt Feedback ab. Das Feedback des Experten wird in Rückschlusstabellen protokolliert.

Führen Sie eine Ablaufverfolgungsüberprüfung aus, in der Prüfer entweder mit der Rezensions-App oder der REST-API interagieren, um Feedback zu geben.

Hinweis

Wenn Sie die Azure Storage-Firewall aktiviert haben, wenden Sie sich an Ihr Azure Databricks-Kontoteam, um Rückschlusstabellen für Ihre Endpunkte zu aktivieren.

Verwenden von mlflow.evaluate() in der Anforderungsprotokolltabelle

Das folgende Notizbuch veranschaulicht die Verwendung der Protokolle aus der Rezensions-App als Eingabe für eine Auswertungsausführung mit mlflow.evaluate().

Auswertung im Anforderungsprotokoll-Notizbuch ausführen

Notebook abrufen