Dela via


Get feedback om kvaliteten på en agentorienterad ansökan

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln visar hur du använder Databricks-granskningsappen för att samla in feedback från mänskliga granskare om kvaliteten på ditt agentiska program. Den omfattar följande:

  • Så här distribuerar du granskningsappen.
  • Hur granskare använder appen för att ge feedback om agentprogrammets svar.
  • Hur experter kan granska loggade chattar för att ge förslag på förbättringar och annan feedback med hjälp av appen.

Vad händer i en mänsklig utvärdering?

Databricks-granskningsappen arrangerar LLM i en miljö where där expertintressenter kan interagera med den – med andra ord, de kan ha en konversation, ställa frågor, ge feedback och så vidare. Granskningsappen loggar alla frågor, svar och feedback i en slutsatsdragning table så att du kan analysera LLM:s prestanda ytterligare. På så sätt hjälper granskningsappen till att säkerställa kvaliteten och säkerheten för de svar som ditt program ger.

Intressenter kan chatta med programroboten och ge feedback om dessa konversationer, eller ge feedback om historiska loggar, utvalda spårningar eller agentutdata.

Krav

  • Inferens tables måste aktiveras på den slutpunkt som betjänar agenten.

  • Varje mänsklig granskare måste ha åtkomst till granskningsappens arbetsyta eller synkroniseras till ditt Databricks-konto med SCIM. Se nästa avsnitt, Set för att uppgradera behörigheter för att använda granskningsappen.

  • Utvecklare måste installera databricks-agents SDK för att set behörigheter och konfigurera granskningsappen.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

Set uppdatera behörigheter för att använda granskningsappen

Kommentar

Mänskliga granskare kräver inte åtkomst till arbetsytan för att använda granskningsappen.

Du kan ge åtkomst till granskningsappen till alla användare i ditt Databricks-konto, även om de inte har åtkomst till arbetsytan som innehåller granskningsappen.

  • För användare som inte har åtkomst till arbetsytan använder en kontoadministratör SCIM-etablering på kontonivå för att sync användare och grupper automatiskt från din identitetsprovider till ditt Azure Databricks-konto. Du kan också registrera dessa användare och grupper manuellt för att ge dem åtkomst när du set upp identiteter i Databricks. Visa Sync användare och grupper från Microsoft Entra ID.
  • För användare som redan har åtkomst till arbetsytan som innehåller granskningsappen krävs ingen ytterligare konfiguration.

Följande kodexempel visar hur du ger användarna behörighet till granskningsappen för en agent. Parametern users tar en list med e-postadresser.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Om du vill granska en chattlogg måste en användare ha behörigheten CAN_REVIEW .

Distribuera granskningsappen

När du distribuerar en agent med aktiveras agents.deploy()och distribueras granskningsappen automatiskt. Utdata från kommandot visar URL:en för granskningsappen. Information om hur du distribuerar en agent finns i Distribuera en agent för generativ AI-program.

länk för att granska appen från notebook-kommandoutdata

Om du förlorar länken till distributionen kan du hitta den med hjälp av list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Granska appens användargränssnitt

Öppna granskningsappen genom att klicka på den angivna URL:en. Användargränssnittet för granskningsappen har tre flikar i det vänstra sidofältet:

När du öppnar granskningsappen visas sidan instruktioner.

granska appens öppningsskärm

Ge instruktioner till granskare

Om du vill ange anpassad text för instruktionerna som visas för granskare använder du följande kod:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

En skärmbild av granskningsappsinstruktionerna angav Python-exemplet.

Chatta med appen och skicka granskningar

Så här chattar du med appen och skickar recensioner:

  1. Klicka på Testa roboten i det vänstra sidofältet.

  2. Skriv din fråga i rutan och tryck på Retur eller Retur på tangentbordet, eller klicka på pilen i rutan.

    Appen visar sitt svar på din fråga och de källor som den använde för att hitta svaret.

    Kommentar

    Om agenten använder en retriever identifieras datakällor genom fältet doc_uri och set av retrievern schema, som definierades när agenten skapades. Se Set retrieverhund schema.

  3. Granska appens svar och selectJa, Nejeller vet inte.

  4. Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.

  5. Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara, som du ser i följande video.

    redigera ett svar

  6. Spara feedbacken genom att klicka på Klar .

  7. Fortsätt att ställa frågor för att ge ytterligare feedback.

Följande diagram illustrerar det här arbetsflödet.

  1. Med hjälp av granskningsappen chattar granskaren med det agentiska programmet.
  2. Med hjälp av granskningsappen ger granskaren feedback om programsvar.
  3. Alla begäranden, svar och feedback loggas för slutsatsdragning tables.

Kör granskningsappen där experter chattar med det agentiska programmet och ger feedback.

Göra chattloggar tillgängliga för utvärdering av expertgranskare

När en användare interagerar med appen med hjälp av REST-API:et eller granskningsappen sparas alla begäranden, svar och ytterligare feedback för att härleda tables. Slutsatsen tables finns i samma Unity-Catalogcatalog och schemawhere där modellen registrerades, och de heter <model_name>_payload, <model_name>_payload_assessment_logsoch <model_name>_payload_request_logs. Mer information om dessa tables, inklusive scheman, finns i Agent-förbättrad slutsatsdragning tables.

Om du vill läsa in loggarna i granskningsappen för utvärdering av expertgranskare måste du först hitta request_id och aktivera granskningar för det request_id på följande sätt:

  1. Hitta de request_idsom ska granskas i slutsats <model_name>_payload_request_logstable. Slutsatsdragningen table finns i samma Unity-Catalogcatalog och Unity-schemawhere-modellen där den registrerades.

  2. Använd kod som liknar följande för att läsa in granskningsloggarna i granskningsappen:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. Resultatcellen innehåller en länk till granskningsappen med de valda loggarna som lästs in för granskning.

Granska appen med chattloggar inlästa för expertgranskning

Expertgranskning av loggar från andra användares interaktioner med appen

Om du vill granska loggar från tidigare chattar måste loggarna ha aktiverats för granskning. Se Gör chattloggar tillgängliga för utvärdering av expertgranskare.

  1. I det vänstra sidofältet i granskningsappen selectChattar för att granska. De aktiverade begärandena visas.

    chattar aktiverade för granskning

  2. Klicka på en begäran om att visa den för granskning.

  3. Granska begäran och svaret. Appen visar också de källor som den använde som referens. Du kan klicka på dessa för att granska referensen och ge feedback om källans relevans.

  4. Om du vill ge feedback om svarets kvalitet selectJa, Nejeller jag inte vet.

  5. Appen ber om ytterligare information. Markera lämpliga rutor eller skriv dina kommentarer i det angivna fältet.

  6. Du kan också redigera svaret direkt för att ge ett bättre svar. Om du vill redigera svaret klickar du på Redigera svar, gör dina ändringar i dialogrutan och klickar på Spara. Se Chatta med appen och skicka granskningar för en video som visar processen.

  7. Spara feedbacken genom att klicka på Klar .

Följande diagram illustrerar det här arbetsflödet.

  1. Med hjälp av granskningsappen eller den anpassade appen chattar granskarna med det agentiska programmet.
  2. Alla begäranden och svar loggas för slutsatsdragning tables.
  3. Programutvecklare använder enable_trace_reviews([request_id]) (whererequest_id är från <model_name>_payload_request_logs slutsatsdragning table) för att publicera chattloggar för att granska appen.
  4. Med hjälp av granskningsappen granskar expertloggar och ger feedback. Expertfeedback loggas för slutsatsdragning tables.

Kör en spårningsgranskning där granskare interagerar med antingen granskningsappen eller REST-API:et för att ge feedback.

Kommentar

Om du har Azure Storage Firewall aktiverat kontaktar du ditt Azure Databricks-kontoteam för att aktivera slutsatsdragning tables för dina slutpunkter.

Använd mlflow.evaluate() i begärandeloggarna table

Följande notebook-fil visar hur du använder loggarna från granskningsappen som indata till en utvärderingskörning med hjälp av mlflow.evaluate().

Kör utvärdering på notebook-filen för begärandeloggar

Get anteckningsbok