Get feedback om kvaliteten på en agentorienterad ansökan
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Den här artikeln visar hur du använder Databricks-granskningsappen för att samla in feedback från mänskliga granskare om kvaliteten på ditt agentiska program. Den omfattar följande:
- Så här distribuerar du granskningsappen.
- Hur granskare använder appen för att ge feedback om agentprogrammets svar.
- Hur experter kan granska loggade chattar för att ge förslag på förbättringar och annan feedback med hjälp av appen.
Vad händer i en mänsklig utvärdering?
Databricks-granskningsappen arrangerar LLM i en miljö where där expertintressenter kan interagera med den – med andra ord, de kan ha en konversation, ställa frågor, ge feedback och så vidare. Granskningsappen loggar alla frågor, svar och feedback i en slutsatsdragning table så att du kan analysera LLM:s prestanda ytterligare. På så sätt hjälper granskningsappen till att säkerställa kvaliteten och säkerheten för de svar som ditt program ger.
Intressenter kan chatta med programroboten och ge feedback om dessa konversationer, eller ge feedback om historiska loggar, utvalda spårningar eller agentutdata.
Krav
Inferens tables måste aktiveras på den slutpunkt som betjänar agenten.
Varje mänsklig granskare måste ha åtkomst till granskningsappens arbetsyta eller synkroniseras till ditt Databricks-konto med SCIM. Se nästa avsnitt, Set för att uppgradera behörigheter för att använda granskningsappen.
Utvecklare måste installera
databricks-agents
SDK för att set behörigheter och konfigurera granskningsappen.%pip install databricks-agents dbutils.library.restartPython()
Set uppdatera behörigheter för att använda granskningsappen
Kommentar
Mänskliga granskare kräver inte åtkomst till arbetsytan för att använda granskningsappen.
Du kan ge åtkomst till granskningsappen till alla användare i ditt Databricks-konto, även om de inte har åtkomst till arbetsytan som innehåller granskningsappen.
- För användare som inte har åtkomst till arbetsytan använder en kontoadministratör SCIM-etablering på kontonivå för att sync användare och grupper automatiskt från din identitetsprovider till ditt Azure Databricks-konto. Du kan också registrera dessa användare och grupper manuellt för att ge dem åtkomst när du set upp identiteter i Databricks. Visa Sync användare och grupper från Microsoft Entra ID.
- För användare som redan har åtkomst till arbetsytan som innehåller granskningsappen krävs ingen ytterligare konfiguration.
Följande kodexempel visar hur du ger användarna behörighet till granskningsappen för en agent. Parametern users
tar en list med e-postadresser.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
Om du vill granska en chattlogg måste en användare ha behörigheten CAN_REVIEW
.
Distribuera granskningsappen
När du distribuerar en agent med aktiveras agents.deploy()
och distribueras granskningsappen automatiskt. Utdata från kommandot visar URL:en för granskningsappen. Information om hur du distribuerar en agent finns i Distribuera en agent för generativ AI-program.
Om du förlorar länken till distributionen kan du hitta den med hjälp av list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
Granska appens användargränssnitt
Öppna granskningsappen genom att klicka på den angivna URL:en. Användargränssnittet för granskningsappen har tre flikar i det vänstra sidofältet:
- Instruktioner Visar instruktioner för granskaren. Se Ge instruktioner till granskare.
- Chattar för att granska Visar loggar från interaktioner mellan granskare och appen där experter kan utvärdera. Se Expertgranskning av loggar från andra användares interaktioner med appen.
- Testa roboten Låter granskare chatta med appen och skicka granskningar av dess svar. Se Chatta med appen och skicka granskningar.
När du öppnar granskningsappen visas sidan instruktioner.
- Om du vill chatta med roboten klickar du på Börja granskaeller selectTesta roboten från det vänstra sidofältet. Mer information finns i Chatta med appen och skicka granskningar .
- Om du vill granska chattloggar som har gjorts tillgängliga för din granskning selectchattar för att granska i sidofältet. Mer information finns i Expertgranskning av loggar från andra användares interaktioner med appen . Information om hur du gör chattloggar tillgängliga från granskningsappen finns i Göra chattloggar tillgängliga för utvärdering av expertgranskare.
Ge instruktioner till granskare
Om du vill ange anpassad text för instruktionerna som visas för granskare använder du följande kod:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
Chatta med appen och skicka granskningar
Så här chattar du med appen och skickar recensioner:
Klicka på Testa roboten i det vänstra sidofältet.
Skriv din fråga i rutan och tryck på Retur eller Retur på tangentbordet, eller klicka på pilen i rutan.
Appen visar sitt svar på din fråga och de källor som den använde för att hitta svaret.
Kommentar
Om agenten använder en retriever identifieras datakällor genom fältet
doc_uri
och set av retrievern schema, som definierades när agenten skapades. Se Set retrieverhund schema.Granska appens svar och selectJa, Nejeller vet inte.
Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.
Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara, som du ser i följande video.
Spara feedbacken genom att klicka på Klar .
Fortsätt att ställa frågor för att ge ytterligare feedback.
Följande diagram illustrerar det här arbetsflödet.
- Med hjälp av granskningsappen chattar granskaren med det agentiska programmet.
- Med hjälp av granskningsappen ger granskaren feedback om programsvar.
- Alla begäranden, svar och feedback loggas för slutsatsdragning tables.
Göra chattloggar tillgängliga för utvärdering av expertgranskare
När en användare interagerar med appen med hjälp av REST-API:et eller granskningsappen sparas alla begäranden, svar och ytterligare feedback för att härleda tables. Slutsatsen tables finns i samma Unity-Catalogcatalog och schemawhere där modellen registrerades, och de heter <model_name>_payload
, <model_name>_payload_assessment_logs
och <model_name>_payload_request_logs
. Mer information om dessa tables, inklusive scheman, finns i Agent-förbättrad slutsatsdragning tables.
Om du vill läsa in loggarna i granskningsappen för utvärdering av expertgranskare måste du först hitta request_id
och aktivera granskningar för det request_id
på följande sätt:
Hitta de
request_id
som ska granskas i slutsats<model_name>_payload_request_logs
table. Slutsatsdragningen table finns i samma Unity-Catalogcatalog och Unity-schemawhere-modellen där den registrerades.Använd kod som liknar följande för att läsa in granskningsloggarna i granskningsappen:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
Resultatcellen innehåller en länk till granskningsappen med de valda loggarna som lästs in för granskning.
Expertgranskning av loggar från andra användares interaktioner med appen
Om du vill granska loggar från tidigare chattar måste loggarna ha aktiverats för granskning. Se Gör chattloggar tillgängliga för utvärdering av expertgranskare.
I det vänstra sidofältet i granskningsappen selectChattar för att granska. De aktiverade begärandena visas.
Klicka på en begäran om att visa den för granskning.
Granska begäran och svaret. Appen visar också de källor som den använde som referens. Du kan klicka på dessa för att granska referensen och ge feedback om källans relevans.
Om du vill ge feedback om svarets kvalitet selectJa, Nejeller jag inte vet.
Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.
Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara. Se Chatta med appen och skicka granskningar för en video som visar processen.
Spara feedbacken genom att klicka på Klar .
Följande diagram illustrerar det här arbetsflödet.
- Med hjälp av granskningsappen eller den anpassade appen chattar granskarna med det agentiska programmet.
- Alla begäranden och svar loggas för slutsatsdragning tables.
- Programutvecklare använder
enable_trace_reviews([request_id])
(whererequest_id
är från<model_name>_payload_request_logs
slutsatsdragning table) för att publicera chattloggar för att granska appen. - Med hjälp av granskningsappen granskar expertloggar och ger feedback. Expertfeedback loggas för slutsatsdragning tables.
Kommentar
Om du har Azure Storage Firewall aktiverat kontaktar du ditt Azure Databricks-kontoteam för att aktivera slutsatsdragning tables för dina slutpunkter.
Använd mlflow.evaluate()
i begärandeloggarna table
Följande notebook-fil visar hur du använder loggarna från granskningsappen som indata till en utvärderingskörning med hjälp av mlflow.evaluate()
.