Delen via


Get feedback op de kwaliteit van een agentische toepassing

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel leest u hoe u de Databricks-beoordelings-app gebruikt om feedback van menselijke revisoren te verzamelen over de kwaliteit van uw agentische toepassing. Hierin worden de volgende zaken behandeld:

  • De beoordelings-app implementeren.
  • Hoe revisoren de app gebruiken om feedback te geven over de reacties van de agentische toepassing.
  • Hoe experts vastgelegde chats kunnen bekijken om suggesties te geven voor verbetering en andere feedback met behulp van de app.

Wat gebeurt er in een menselijke evaluatie?

De Databricks-beoordelings-app faseert de LLM in een omgeving where deskundige belanghebbenden kunnen ermee communiceren, met andere woorden een gesprek voeren, vragen stellen, feedback geven, enzovoort. De beoordelings-app registreert alle vragen, antwoorden en feedback in een deductie table, zodat u de prestaties van de LLM verder kunt analyseren. Op deze manier helpt de beoordelings-app ervoor te zorgen dat de kwaliteit en veiligheid van de antwoorden die uw toepassing biedt.

Belanghebbenden kunnen chatten met de toepassingsbot en feedback geven over deze gesprekken, of feedback geven over historische logboeken, gecureerde traceringen of agentuitvoer.

Vereisten

  • Inferentie tables moet zijn ingeschakeld op het eindpunt waar de agent actief is.

  • Elke menselijke revisor moet toegang hebben tot de werkruimte van de beoordelings-app of worden gesynchroniseerd met uw Databricks-account met SCIM. Zie de volgende sectie, Set machtigingen om de beoordelingsappte gebruiken.

  • Ontwikkelaars moeten de databricks-agents SDK installeren om machtigingen te set en de review-app te configureren.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

Set machtigingen verlenen voor het gebruik van de beoordelings-app

Notitie

Menselijke revisoren hebben geen toegang tot de werkruimte nodig om de beoordelings-app te gebruiken.

U kunt toegang tot de beoordelings-app verlenen aan elke gebruiker in uw Databricks-account, zelfs als deze geen toegang heeft tot de werkruimte die de beoordelings-app bevat.

  • Voor gebruikers die geen toegang hebben tot de werkruimte, gebruikt een accountbeheerder SCIM-inrichting op accountniveau om gebruikers en groepen automatisch van uw id-provider naar uw Azure Databricks-account te sync. U kunt deze gebruikers en groepen ook handmatig registreren om ze toegang te geven wanneer u identiteiten set in Databricks. Zie Sync gebruikers en groepen van Microsoft Entra ID.
  • Voor gebruikers die al toegang hebben tot de werkruimte die de beoordelings-app bevat, is er geen extra configuratie vereist.

In het volgende codevoorbeeld ziet u hoe u gebruikers toestemming geeft voor de beoordelings-app voor een agent. De parameter users gebruikt een list e-mailadressen.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Als u een chatlogboek wilt bekijken, moet een gebruiker over de CAN_REVIEW machtiging beschikken.

De beoordelings-app implementeren

Wanneer u een agent implementeert met behulp van agents.deploy(), wordt de beoordelings-app automatisch ingeschakeld en geïmplementeerd. De uitvoer van de opdracht toont de URL voor de beoordelings-app. Zie Een agent implementeren voor een generatieve AI-toepassing voor informatie over het implementeren van een agent.

koppeling om de app te controleren vanuit de uitvoer van notebookopdrachten

Als u de koppeling naar de implementatie kwijtraakt, kunt u deze vinden met behulp van list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

App-gebruikersinterface controleren

Klik op de opgegeven URL om de beoordelings-app te openen. De gebruikersinterface van de beoordelings-app heeft drie tabbladen in de linkerzijbalk:

Wanneer u de beoordelings-app opent, wordt de pagina met instructies weergegeven.

het scherm voor het openen van apps controleren

Geef instructies aan revisoren

Als u aangepaste tekst wilt opgeven voor de instructies die voor revisoren worden weergegeven, gebruikt u de volgende code:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Een schermopname van de instructies voor de beoordelings-app die het Python-voorbeeld hebben opgegeven.

Chatten met de app en beoordelingen verzenden

Chatten met de app en beoordelingen verzenden:

  1. Klik op De bot testen in de linkerzijbalk.

  2. Typ uw vraag in het vak en druk op Return of Enter op het toetsenbord of klik op de pijl in het vak.

    De app geeft het antwoord weer op uw vraag en de bronnen die de app heeft gebruikt om het antwoord te vinden.

    Notitie

    Als de agent gebruikmaakt van een retriever, worden gegevensbronnen geïdentificeerd via het doc_uri veld set, zoals bepaald door de retriever schema tijdens het maken van de agent. Zie Set retriever schema.

  3. Controleer het antwoord van de app en selectJa, Nee, of Ik weet het niet.

  4. De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.

  5. U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng uw wijzigingen aan in het dialoogvenster en klikt u op Opslaan, zoals wordt weergegeven in de volgende video.

    een antwoord bewerken

  6. Klik op Gereed om uw feedback op te slaan.

  7. Blijf vragen stellen om aanvullende feedback te geven.

In het volgende diagram ziet u deze werkstroom.

  1. Met behulp van de beoordelings-app chatten revisoren met de agentische toepassing.
  2. Met behulp van de beoordelings-app geeft revisor feedback over reacties op toepassingen.
  3. Alle aanvragen, antwoorden en feedback worden geregistreerd bij inferentie tables.

Voer de beoordelings-app uit waarin experts chatten met de agentische toepassing en feedback geven.

Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren

Wanneer een gebruiker communiceert met de app via de REST API of de beoordelingsapp, worden alle aanvragen, antwoorden en aanvullende feedback opgeslagen in inferentie tables. De inferences tables bevinden zich in dezelfde Unity Catalogcatalog en schemawhere waarin het model is geregistreerd en ze hebben de namen <model_name>_payload, <model_name>_payload_assessment_logsen <model_name>_payload_request_logs. Voor meer informatie over deze tables, inclusief schema's, zie Agent-verbeterde inferentie tables.

Als u deze logboeken wilt laden in de beoordelings-app voor evaluatie door deskundige revisoren, moet u eerst de request_id beoordelingen request_id hiervoor als volgt vinden en inschakelen:

  1. Zoek de request_iddie moeten worden gecontroleerd van de <model_name>_payload_request_logs afgeleide table. De inferentie table bevindt zich in dezelfde Unity Catalogcatalog en schemawhere waarin het model is geregistreerd.

  2. Gebruik code die vergelijkbaar is met de volgende code om de controlelogboeken in de beoordelings-app te laden:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. De resultaatcel bevat een koppeling naar de beoordelings-app met de geselecteerde logboeken die ter beoordeling zijn geladen.

App controleren met chatlogboeken geladen voor deskundige beoordeling

Deskundige beoordeling van logboeken van interacties van andere gebruikers met de app

Als u logboeken van eerdere chats wilt bekijken, moeten de logboeken zijn ingeschakeld voor controle. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren.

  1. In de linkerzijbalk van de beoordelings-app selectChats omte bekijken. De ingeschakelde aanvragen worden weergegeven.

    chats ingeschakeld voor beoordeling

  2. Klik op een aanvraag om deze weer te geven voor revisie.

  3. Controleer de aanvraag en het antwoord. In de app worden ook de bronnen weergegeven die worden gebruikt ter referentie. U kunt hierop klikken om de verwijzing te bekijken en feedback te geven over de relevantie van de bron.

  4. Als u feedback wilt geven over de kwaliteit van het antwoord, selectJa, Neeof ikniet ken.

  5. De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.

  6. U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng de wijzigingen aan in het dialoogvenster en klikt u op Opslaan. Zie Chatten met de app en beoordelingen indienen voor een video waarin het proces wordt weergegeven.

  7. Klik op Gereed om uw feedback op te slaan.

In het volgende diagram ziet u deze werkstroom.

  1. Met behulp van de beoordelings-app of aangepaste app chatten revisoren met de agentische toepassing.
  2. Alle aanvragen en antwoorden worden geregistreerd bij inferentie tables.
  3. Toepassingsontwikkelaar gebruikt enable_trace_reviews([request_id]) (whererequest_id afkomstig is van de <model_name>_payload_request_logs afleiding table) om chatlogs te plaatsen voor het beoordelen van de app.
  4. Met behulp van de beoordelings-app kunt u logboeken van experts beoordelen en feedback geven. Feedback van experts wordt vastgelegd voor inferentie tables.

Voer een traceringsbeoordeling uit waarin revisoren communiceren met de beoordelings-app of de REST API om feedback te geven.

Notitie

Als Azure Storage Firewall is ingeschakeld, neemt u contact op met uw Azure Databricks-accountteam om deductie-tables in te schakelen voor uw eindpunten.

Gebruik mlflow.evaluate() in de aanvraaglogboeken table

In het volgende notebook ziet u hoe u de logboeken van de beoordelings-app gebruikt als invoer voor een evaluatieuitvoering met behulp van mlflow.evaluate().

Evaluatie uitvoeren op notitieblok voor aanvraaglogboeken

Get notebook