Get feedback op de kwaliteit van een agentische toepassing
Belangrijk
Deze functie is beschikbaar als openbare preview.
In dit artikel leest u hoe u de Databricks-beoordelings-app gebruikt om feedback van menselijke revisoren te verzamelen over de kwaliteit van uw agentische toepassing. Hierin worden de volgende zaken behandeld:
- De beoordelings-app implementeren.
- Hoe revisoren de app gebruiken om feedback te geven over de reacties van de agentische toepassing.
- Hoe experts vastgelegde chats kunnen bekijken om suggesties te geven voor verbetering en andere feedback met behulp van de app.
Wat gebeurt er in een menselijke evaluatie?
De Databricks-beoordelings-app faseert de LLM in een omgeving where deskundige belanghebbenden kunnen ermee communiceren, met andere woorden een gesprek voeren, vragen stellen, feedback geven, enzovoort. De beoordelings-app registreert alle vragen, antwoorden en feedback in een deductie table, zodat u de prestaties van de LLM verder kunt analyseren. Op deze manier helpt de beoordelings-app ervoor te zorgen dat de kwaliteit en veiligheid van de antwoorden die uw toepassing biedt.
Belanghebbenden kunnen chatten met de toepassingsbot en feedback geven over deze gesprekken, of feedback geven over historische logboeken, gecureerde traceringen of agentuitvoer.
Vereisten
Inferentie tables moet zijn ingeschakeld op het eindpunt waar de agent actief is.
Elke menselijke revisor moet toegang hebben tot de werkruimte van de beoordelings-app of worden gesynchroniseerd met uw Databricks-account met SCIM. Zie de volgende sectie, Set machtigingen om de beoordelingsappte gebruiken.
Ontwikkelaars moeten de
databricks-agents
SDK installeren om machtigingen te set en de review-app te configureren.%pip install databricks-agents dbutils.library.restartPython()
Set machtigingen verlenen voor het gebruik van de beoordelings-app
Notitie
Menselijke revisoren hebben geen toegang tot de werkruimte nodig om de beoordelings-app te gebruiken.
U kunt toegang tot de beoordelings-app verlenen aan elke gebruiker in uw Databricks-account, zelfs als deze geen toegang heeft tot de werkruimte die de beoordelings-app bevat.
- Voor gebruikers die geen toegang hebben tot de werkruimte, gebruikt een accountbeheerder SCIM-inrichting op accountniveau om gebruikers en groepen automatisch van uw id-provider naar uw Azure Databricks-account te sync. U kunt deze gebruikers en groepen ook handmatig registreren om ze toegang te geven wanneer u identiteiten set in Databricks. Zie Sync gebruikers en groepen van Microsoft Entra ID.
- Voor gebruikers die al toegang hebben tot de werkruimte die de beoordelings-app bevat, is er geen extra configuratie vereist.
In het volgende codevoorbeeld ziet u hoe u gebruikers toestemming geeft voor de beoordelings-app voor een agent. De parameter users
gebruikt een list e-mailadressen.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
Als u een chatlogboek wilt bekijken, moet een gebruiker over de CAN_REVIEW
machtiging beschikken.
De beoordelings-app implementeren
Wanneer u een agent implementeert met behulp van agents.deploy()
, wordt de beoordelings-app automatisch ingeschakeld en geïmplementeerd. De uitvoer van de opdracht toont de URL voor de beoordelings-app. Zie Een agent implementeren voor een generatieve AI-toepassing voor informatie over het implementeren van een agent.
Als u de koppeling naar de implementatie kwijtraakt, kunt u deze vinden met behulp van list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
App-gebruikersinterface controleren
Klik op de opgegeven URL om de beoordelings-app te openen. De gebruikersinterface van de beoordelings-app heeft drie tabbladen in de linkerzijbalk:
- Instructies geeft instructies weer voor de revisor. Zie Instructies voor revisoren opgeven.
- Chats om logboeken weer te geven van de interacties van revisoren met de app die experts kunnen evalueren. Zie Expert review of logs from other user's interactions with the app.
- Test de bot laat revisoren chatten met de app en beoordelingen van de antwoorden verzenden. Zie Chatten met de app en beoordelingen verzenden.
Wanneer u de beoordelings-app opent, wordt de pagina met instructies weergegeven.
- Als u wilt chatten met de bot, klikt u op Begin met het controleren vanof selectDe bot testen in de linkerzijbalk. Zie Chatten met de app en beoordelingen indienen voor meer informatie.
- Als u chatlogboeken wilt bekijken die beschikbaar zijn gesteld voor uw beoordeling, selectChats om in de zijbalk te bekijken. Zie De deskundige beoordeling van logboeken van interacties van andere gebruikers met de app voor meer informatie. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren voor meer informatie over het beschikbaar maken van chatlogboeken vanuit de beoordelings-app.
Geef instructies aan revisoren
Als u aangepaste tekst wilt opgeven voor de instructies die voor revisoren worden weergegeven, gebruikt u de volgende code:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
Chatten met de app en beoordelingen verzenden
Chatten met de app en beoordelingen verzenden:
Klik op De bot testen in de linkerzijbalk.
Typ uw vraag in het vak en druk op Return of Enter op het toetsenbord of klik op de pijl in het vak.
De app geeft het antwoord weer op uw vraag en de bronnen die de app heeft gebruikt om het antwoord te vinden.
Notitie
Als de agent gebruikmaakt van een retriever, worden gegevensbronnen geïdentificeerd via het
doc_uri
veld set, zoals bepaald door de retriever schema tijdens het maken van de agent. Zie Set retriever schema.Controleer het antwoord van de app en selectJa, Nee, of Ik weet het niet.
De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.
U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng uw wijzigingen aan in het dialoogvenster en klikt u op Opslaan, zoals wordt weergegeven in de volgende video.
Klik op Gereed om uw feedback op te slaan.
Blijf vragen stellen om aanvullende feedback te geven.
In het volgende diagram ziet u deze werkstroom.
- Met behulp van de beoordelings-app chatten revisoren met de agentische toepassing.
- Met behulp van de beoordelings-app geeft revisor feedback over reacties op toepassingen.
- Alle aanvragen, antwoorden en feedback worden geregistreerd bij inferentie tables.
Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren
Wanneer een gebruiker communiceert met de app via de REST API of de beoordelingsapp, worden alle aanvragen, antwoorden en aanvullende feedback opgeslagen in inferentie tables. De inferences tables bevinden zich in dezelfde Unity Catalogcatalog en schemawhere waarin het model is geregistreerd en ze hebben de namen <model_name>_payload
, <model_name>_payload_assessment_logs
en <model_name>_payload_request_logs
. Voor meer informatie over deze tables, inclusief schema's, zie Agent-verbeterde inferentie tables.
Als u deze logboeken wilt laden in de beoordelings-app voor evaluatie door deskundige revisoren, moet u eerst de request_id
beoordelingen request_id
hiervoor als volgt vinden en inschakelen:
Zoek de
request_id
die moeten worden gecontroleerd van de<model_name>_payload_request_logs
afgeleide table. De inferentie table bevindt zich in dezelfde Unity Catalogcatalog en schemawhere waarin het model is geregistreerd.Gebruik code die vergelijkbaar is met de volgende code om de controlelogboeken in de beoordelings-app te laden:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
De resultaatcel bevat een koppeling naar de beoordelings-app met de geselecteerde logboeken die ter beoordeling zijn geladen.
Deskundige beoordeling van logboeken van interacties van andere gebruikers met de app
Als u logboeken van eerdere chats wilt bekijken, moeten de logboeken zijn ingeschakeld voor controle. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren.
In de linkerzijbalk van de beoordelings-app selectChats omte bekijken. De ingeschakelde aanvragen worden weergegeven.
Klik op een aanvraag om deze weer te geven voor revisie.
Controleer de aanvraag en het antwoord. In de app worden ook de bronnen weergegeven die worden gebruikt ter referentie. U kunt hierop klikken om de verwijzing te bekijken en feedback te geven over de relevantie van de bron.
Als u feedback wilt geven over de kwaliteit van het antwoord, selectJa, Neeof ikniet ken.
De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.
U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng de wijzigingen aan in het dialoogvenster en klikt u op Opslaan. Zie Chatten met de app en beoordelingen indienen voor een video waarin het proces wordt weergegeven.
Klik op Gereed om uw feedback op te slaan.
In het volgende diagram ziet u deze werkstroom.
- Met behulp van de beoordelings-app of aangepaste app chatten revisoren met de agentische toepassing.
- Alle aanvragen en antwoorden worden geregistreerd bij inferentie tables.
- Toepassingsontwikkelaar gebruikt
enable_trace_reviews([request_id])
(whererequest_id
afkomstig is van de<model_name>_payload_request_logs
afleiding table) om chatlogs te plaatsen voor het beoordelen van de app. - Met behulp van de beoordelings-app kunt u logboeken van experts beoordelen en feedback geven. Feedback van experts wordt vastgelegd voor inferentie tables.
Notitie
Als Azure Storage Firewall is ingeschakeld, neemt u contact op met uw Azure Databricks-accountteam om deductie-tables in te schakelen voor uw eindpunten.
Gebruik mlflow.evaluate()
in de aanvraaglogboeken table
In het volgende notebook ziet u hoe u de logboeken van de beoordelings-app gebruikt als invoer voor een evaluatieuitvoering met behulp van mlflow.evaluate()
.