Dela via


Få feedback om kvaliteten på ett agentiskt program

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln visar hur du använder Databricks-granskningsappen för att samla in feedback från mänskliga granskare om kvaliteten på ditt agentiska program. Den omfattar följande:

  • Så här distribuerar du granskningsappen.
  • Hur granskare använder appen för att ge feedback om agentprogrammets svar.
  • Hur experter kan granska loggade chattar för att ge förslag på förbättringar och annan feedback med hjälp av appen.

Vad händer i en mänsklig utvärdering?

Databricks-granskningsappen arrangerar LLM i en miljö där expertintressenter kan interagera med den – med andra ord ha en konversation, ställa frågor, ge feedback och så vidare. Granskningsappen loggar alla frågor, svar och feedback i en slutsatsdragningstabell så att du kan analysera LLM:s prestanda ytterligare. På så sätt hjälper granskningsappen till att säkerställa kvaliteten och säkerheten för de svar som ditt program ger.

Intressenter kan chatta med programroboten och ge feedback om dessa konversationer, eller ge feedback om historiska loggar, utvalda spårningar eller agentutdata.

Krav

  • inferenstabeller måste aktiveras på slutpunkten som betjänar agenten.

  • Varje mänsklig granskare måste ha åtkomst till granskningsappens arbetsyta eller synkroniseras till ditt Databricks-konto med SCIM. Se nästa avsnitt Konfigurera behörigheter för att använda granskningsappen.

  • Utvecklare måste installera databricks-agents SDK för att konfigurera behörigheter och konfigurera granskningsappen.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

Konfigurera behörigheter för att använda granskningsappen

Kommentar

Mänskliga granskare kräver inte åtkomst till arbetsytan för att använda granskningsappen.

Du kan ge åtkomst till granskningsappen till alla användare i ditt Databricks-konto, även om de inte har åtkomst till arbetsytan som innehåller granskningsappen.

  • För användare som inte har åtkomst till arbetsytan använder en kontoadministratör SCIM-etablering på kontonivå för att synkronisera användare och grupper automatiskt från din identitetsprovider till ditt Azure Databricks-konto. Du kan också registrera dessa användare och grupper manuellt för att ge dem åtkomst när du konfigurerar identiteter i Databricks. Se Synkronisera användare och grupper från Microsoft Entra-ID med SCIM.
  • För användare som redan har åtkomst till arbetsytan som innehåller granskningsappen krävs ingen ytterligare konfiguration.

Följande kodexempel visar hur du ger användarna behörighet till granskningsappen för en agent. Parametern users tar en lista med e-postadresser.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Om du vill granska en chattlogg måste en användare ha behörigheten CAN_REVIEW .

Distribuera granskningsappen

När du distribuerar en agent med aktiveras agents.deploy()och distribueras granskningsappen automatiskt. Utdata från kommandot visar URL:en för granskningsappen. Information om hur du distribuerar en agent finns i Distribuera en agent för generativ AI-program.

länk för att granska appen från notebook-kommandoutdata

Om du förlorar länken till distributionen kan du hitta den med hjälp av list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Granska appens användargränssnitt

Öppna granskningsappen genom att klicka på den angivna URL:en. Användargränssnittet för granskningsappen har tre flikar i det vänstra sidofältet:

När du öppnar granskningsappen visas sidan instruktioner.

granska appens öppningsskärm

Ge instruktioner till granskare

Om du vill ange anpassad text för instruktionerna som visas för granskare använder du följande kod:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

En skärmbild av granskningsappsinstruktionerna angav Python-exemplet.

Chatta med appen och skicka granskningar

Så här chattar du med appen och skickar recensioner:

  1. Klicka på Testa roboten i det vänstra sidofältet.

  2. Skriv din fråga i rutan och tryck på Retur eller Retur på tangentbordet, eller klicka på pilen i rutan.

    Appen visar sitt svar på din fråga och de källor som den använde för att hitta svaret.

    Kommentar

    Om agenten använder en retriever identifieras datakällor av det doc_uri fält som anges av det retriever-schema som definierades när agenten skapades. Se Ange retriever schema.

  3. Granska appens svar och välj Ja, Nejeller jag inte vet.

  4. Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.

  5. Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara, som du ser i följande video.

    redigera ett svar

  6. Spara feedbacken genom att klicka på Klar .

  7. Fortsätt att ställa frågor för att ge ytterligare feedback.

Följande diagram illustrerar det här arbetsflödet.

  1. Med hjälp av granskningsappen chattar granskaren med det agentiska programmet.
  2. Med hjälp av granskningsappen ger granskaren feedback om programsvar.
  3. Alla begäranden, svar och feedback loggas i slutsatsdragningstabeller.

Kör granskningsappen där experter chattar med det agentiska programmet och ger feedback.

Göra chattloggar tillgängliga för utvärdering av expertgranskare

När en användare interagerar med appen med hjälp av REST-API:et eller granskningsappen sparas alla begäranden, svar och ytterligare feedback i slutsatstabeller. Slutsatsdragningstabellerna finns i samma Unity Catalog-katalog och schema där modellen registrerades och heter <model_name>_payload, <model_name>_payload_assessment_logsoch <model_name>_payload_request_logs. Mer information om dessa tabeller, inklusive scheman, finns i Agent-förbättrade slutsatsdragningstabeller.

Om du vill läsa in loggarna i granskningsappen för utvärdering av expertgranskare måste du först hitta request_id och aktivera granskningar för det request_id på följande sätt:

  1. Leta upp de request_idsom ska granskas i slutledningstabellen <model_name>_payload_request_logs. Slutsatsdragningstabellen finns i samma Unity Catalog-katalog och schema där modellen registrerades.

  2. Använd kod som liknar följande för att läsa in granskningsloggarna i granskningsappen:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. Resultatcellen innehåller en länk till granskningsappen med de valda loggarna som lästs in för granskning.

Granska appen med chattloggar inlästa för expertgranskning

Expertgranskning av loggar från andra användares interaktioner med appen

Om du vill granska loggar från tidigare chattar måste loggarna ha aktiverats för granskning. Se Gör chattloggar tillgängliga för utvärdering av expertgranskare.

  1. I granskningsappens vänstra sidofält väljer du Chattar för att granska. De aktiverade begärandena visas.

    chattar aktiverade för granskning

  2. Klicka på en begäran om att visa den för granskning.

  3. Granska begäran och svaret. Appen visar också de källor som den använde som referens. Du kan klicka på dessa för att granska referensen och ge feedback om källans relevans.

  4. Om du vill ge feedback om svarets kvalitet väljer du Ja, Nejeller jag inte vet.

  5. Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.

  6. Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara. Se Chatta med appen och skicka granskningar för en video som visar processen.

  7. Spara feedbacken genom att klicka på Klar .

Följande diagram illustrerar det här arbetsflödet.

  1. Med hjälp av granskningsappen eller den anpassade appen chattar granskarna med det agentiska programmet.
  2. Alla begäranden och svar loggas i slutsatsdragningstabeller.
  3. Programutvecklare använder enable_trace_reviews([request_id]) (där request_id kommer från tabellen <model_name>_payload_request_logs slutsatsdragning) för att publicera chattloggar för att granska appen.
  4. Med hjälp av granskningsappen granskar expertloggar och ger feedback. Expertfeedback loggas till slutsatsdragningstabeller.

Kör en spårningsgranskning där granskare interagerar med antingen granskningsappen eller REST-API:et för att ge feedback.

Kommentar

Om du har Azure Storage Firewall aktiverat kontaktar du ditt Azure Databricks-kontoteam för att aktivera slutsatsdragningstabeller för dina slutpunkter.

Använda mlflow.evaluate() i tabellen för begärandeloggar

Följande notebook-fil visar hur du använder loggarna från granskningsappen som indata till en utvärderingskörning med hjälp av mlflow.evaluate().

Kör utvärdering på notebook-filen för begärandeloggar

Hämta anteckningsbok