(Äldre version) Få feedback om kvaliteten på en agentbaserad ansökan

Artikel
03/18/2025

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Viktigt!

Databricks rekommenderar att du använder den aktuella Review App version.

Den här artikeln visar hur du använder Databricks-granskningsappen för att samla in feedback från mänskliga granskare om kvaliteten på ditt agentiska program. Den omfattar följande:

Så här distribuerar du granskningsappen.
Hur granskare använder appen för att ge feedback om agentprogrammets svar.
Hur experter kan granska loggade chattar för att ge förslag på förbättringar och annan feedback med hjälp av appen.

Vad händer i en mänsklig utvärdering?

Databricks-granskningsappen arrangerar LLM i en miljö där expertintressenter kan interagera med den – med andra ord ha en konversation, ställa frågor, ge feedback och så vidare. Granskningsappen loggar alla frågor, svar och feedback i en slutsatsdragningstabell så att du kan analysera LLM:s prestanda ytterligare. På så sätt hjälper granskningsappen till att säkerställa kvaliteten och säkerheten för de svar som ditt program ger.

Intressenter kan chatta med programroboten och ge feedback om dessa konversationer, eller ge feedback om historiska loggar, utvalda spårningar eller agentutdata.

Krav

inferenstabeller måste aktiveras på slutpunkten som betjänar agenten.
Varje mänsklig granskare måste ha åtkomst till granskningsappens arbetsyta eller synkroniseras till ditt Databricks-konto med SCIM. Se nästa avsnitt Konfigurera behörigheter för att använda granskningsappen.
Utvecklare måste installera databricks-agents SDK för att konfigurera behörigheter och konfigurera granskningsappen.
```
%pip install databricks-agents
dbutils.library.restartPython()
```

Konfigurera behörigheter för att använda granskningsappen

Anmärkning

Mänskliga granskare kräver inte åtkomst till arbetsytan för att använda granskningsappen.

Du kan ge åtkomst till granskningsappen till alla användare i ditt Databricks-konto, även om de inte har åtkomst till arbetsytan som innehåller granskningsappen.

För användare som inte har åtkomst till arbetsytan använder en kontoadministratör SCIM-etablering på kontonivå för att synkronisera användare och grupper automatiskt från din identitetsprovider till ditt Azure Databricks-konto. Du kan också registrera dessa användare och grupper manuellt för att ge dem åtkomst när du konfigurerar identiteter i Databricks. Se Synkronisera användare och grupper från Microsoft Entra-ID med SCIM.
För användare som redan har åtkomst till arbetsytan som innehåller granskningsappen krävs ingen ytterligare konfiguration.

Följande kodexempel visar hur du ger användarna behörighet till granskningsappen för en agent. Parametern users tar en lista med e-postadresser.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Om du vill granska en chattlogg måste en användare ha behörigheten CAN_REVIEW .

Aktivera granskningsappen

När du distribuerar en agent med agents.deploy() aktiveras och distribueras granskningsappen automatiskt. Utdata från kommandot visar URL:en för granskningsappen. Information om hur du distribuerar en agent finns i Distribuera en agent för generativ AI-program.

länk för att granska appen från kommandoutdata från notebook

Om du förlorar länken till distributionen kan du hitta den med hjälp av list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Granska appens användargränssnitt

Öppna granskningsappen genom att klicka på den angivna URL:en. Användargränssnittet för granskningsappen har tre flikar i det vänstra sidofältet:

Instruktioner Visar instruktioner för granskaren. Se Ge instruktioner till granskare.
Chattar för att granska Visar loggar från interaktioner mellan granskare och appen där experter kan utvärdera. Se Expertgranskning av loggar från andra användares interaktioner med appen.
Testa roboten Låter granskare chatta med appen och skicka granskningar av dess svar. Se Chatta med appen och skicka granskningar.

När du öppnar granskningsappen visas sidan instruktioner.

Om du vill chatta med roboten klickar du på Börja granskaeller väljer Testa roboten i det vänstra sidofältet. Mer information finns i Chatta med appen och skicka granskningar .
Om du vill granska chattloggar som har gjorts tillgängliga för din granskning väljer du Chattar för att granska i sidofältet. Mer information finns i Expertgranskning av loggar från andra användares interaktioner med appen . Information om hur du gör chattloggar tillgängliga från granskningsappen finns i Göra chattloggar tillgängliga för utvärdering av expertgranskare.

granska appens öppningsskärm

Ge instruktioner till granskare

Om du vill ange anpassad text för instruktionerna som visas för granskare använder du följande kod:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

En skärmbild av granskningsappsinstruktionerna angav Python-exemplet.

Chatta med appen och skicka granskningar

Så här chattar du med appen och skickar recensioner:

Klicka på Testa roboten i det vänstra sidofältet.
Skriv din fråga i rutan och tryck på Retur eller Retur på tangentbordet, eller klicka på pilen i rutan.

Appen visar sitt svar på din fråga och de källor som den använde för att hitta svaret.

Anmärkning

Om agenten använder en retriever identifieras datakällor av det doc_uri fält som anges av det retriever-schema som definierades när agenten skapades. Se Ange konfiguration för retriever.
Granska appens svar och välj Ja, Nejeller jag inte vet.
Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.
Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara, som du ser i följande video.
Spara feedbacken genom att klicka på Klar .
Fortsätt att ställa frågor för att ge ytterligare feedback.

Följande diagram illustrerar det här arbetsflödet.

Med hjälp av granskningsappen chattar granskaren med det agentiska programmet.
Med hjälp av granskningsappen ger granskaren feedback om programsvar.
Alla begäranden, svar och feedback loggas i slutsatsdragningstabeller.

Kör granskningsappen där experter chattar med det agentiska programmet och ger feedback.

Göra chattloggar tillgängliga för utvärdering av expertgranskare

När en användare interagerar med appen med hjälp av REST-API:et eller granskningsappen sparas alla begäranden, svar och ytterligare feedback i slutsatstabeller. Slutsatsdragningstabellerna finns i samma Unity Catalog-katalog och schema där modellen registrerades och heter <model_name>_payload, <model_name>_payload_assessment_logsoch <model_name>_payload_request_logs. Mer information om dessa tabeller, inklusive scheman, finns i Övervaka distribuerade agenter.

Om du vill läsa in loggarna i granskningsappen för utvärdering av expertgranskare måste du först hitta request_id och aktivera granskningar för det request_id på följande sätt:

Lokalisera request_id som ska granskas från slutledningstabellen <model_name>_payload_request_logs. Slutsatsdragningstabellen finns i samma Unity Catalog-katalog och schema där modellen registrerades.

Använd kod som liknar följande för att läsa in granskningsloggarna i granskningsappen:

from databricks import agents

agents.enable_trace_reviews(
  model_name=model_fqn,
  request_ids=[
      "52ee973e-0689-4db1-bd05-90d60f94e79f",
      "1b203587-7333-4721-b0d5-bba161e4643a",
      "e68451f4-8e7b-4bfc-998e-4bda66992809",
  ],
)

Resultatcellen innehåller en länk till granskningsappen med de valda loggarna som lästs in för granskning.

Granska appen med chattloggar laddade för expertgranskning

Expertgranskning av loggar från andra användares interaktioner med appen

Om du vill granska loggar från tidigare chattar måste loggarna ha aktiverats för granskning. Se Gör chattloggar tillgängliga för utvärdering av expertgranskare.

I granskningsappens vänstra sidofält väljer du Chattar för att granska. De aktiverade begärandena visas.
Klicka på en begäran om att visa den för granskning.
Granska begäran och svaret. Appen visar också de källor som den använde som referens. Du kan klicka på dessa för att granska referensen och ge feedback om källans relevans.
Om du vill ge feedback om svarets kvalitet väljer du Ja, Nejeller jag inte vet.
Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.
Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara. Se Chatta med appen och skicka granskningar för en video som visar processen.
Spara feedbacken genom att klicka på Klar .

Följande diagram illustrerar det här arbetsflödet.

Med hjälp av granskningsappen eller den anpassade appen chattar granskarna med det agentiska programmet.
Alla begäranden och svar loggas i slutsatsdragningstabeller.
Programutvecklare använder enable_trace_reviews([request_id]) (där request_id kommer från tabellen <model_name>_payload_request_logs slutsatsdragning) för att publicera chattloggar för att granska appen.
Med hjälp av granskningsappen granskar expertloggar och ger feedback. Expertfeedback loggas till slutsatsdragningstabeller.

Kör en spårningsgranskning där granskare interagerar med antingen granskningsappen eller REST-API:et för att ge feedback.

Anmärkning

Om du har Azure Storage Firewall aktiverat kontaktar du ditt Azure Databricks-kontoteam för att aktivera slutsatsdragningstabeller för dina slutpunkter.

Använd `mlflow.evaluate()` i tabellen för begärandeloggar

Följande notebook-fil visar hur du använder loggarna från granskningsappen som ingång till en utvärdering med hjälp av mlflow.evaluate().

Kör utvärdering på notebook-filen för begärandeloggar

Hämta anteckningsbok

Dela via

(Äldre version) Få feedback om kvaliteten på en agentbaserad ansökan

Vad händer i en mänsklig utvärdering?

Krav

Konfigurera behörigheter för att använda granskningsappen

Aktivera granskningsappen

Granska appens användargränssnitt

Ge instruktioner till granskare

Chatta med appen och skicka granskningar

Göra chattloggar tillgängliga för utvärdering av expertgranskare

Expertgranskning av loggar från andra användares interaktioner med appen

Använd `mlflow.evaluate()` i tabellen för begärandeloggar

Kör utvärdering på notebook-filen för begärandeloggar

Feedback

Ytterligare resurser

Dela via

(Äldre version) Få feedback om kvaliteten på en agentbaserad ansökan

Vad händer i en mänsklig utvärdering?

Krav

Konfigurera behörigheter för att använda granskningsappen

Aktivera granskningsappen

Granska appens användargränssnitt

Ge instruktioner till granskare

Chatta med appen och skicka granskningar

Göra chattloggar tillgängliga för utvärdering av expertgranskare

Expertgranskning av loggar från andra användares interaktioner med appen

Använd mlflow.evaluate() i tabellen för begärandeloggar

Kör utvärdering på notebook-filen för begärandeloggar

Feedback

Ytterligare resurser

Använd `mlflow.evaluate()` i tabellen för begärandeloggar