Uzyskiwanie opinii na temat jakości aplikacji agenta
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
W tym artykule pokazano, jak używać aplikacji do przeglądu usługi Databricks w celu zbierania opinii od recenzentów dotyczących jakości aplikacji agenta. Obejmuje ona następujące kwestie:
- Jak wdrożyć aplikację do przeglądu.
- Jak recenzenci używają aplikacji do przekazywania opinii na temat odpowiedzi aplikacji agenta.
- Jak eksperci mogą przeglądać zarejestrowane czaty, aby przekazać sugestie dotyczące ulepszeń i innych opinii przy użyciu aplikacji.
Co się dzieje w ocenie ludzkiej?
Usługa Databricks przegląda etapy aplikacji LLM w środowisku, w którym uczestnicy ekspertów mogą z nią korzystać — innymi słowy, mają konwersację, zadają pytania, przekazują opinię itd. Aplikacja przeglądu rejestruje wszystkie pytania, odpowiedzi i opinie w tabeli wnioskowania, aby umożliwić dalszą analizę wydajności usługi LLM. W ten sposób aplikacja do przeglądu pomaga zapewnić jakość i bezpieczeństwo odpowiedzi zapewnianych przez aplikację.
Uczestnicy projektu mogą porozmawiać z botem aplikacji i przekazać opinię na temat tych konwersacji lub przekazać opinię na temat dzienników historycznych, wyselekcjonowanych śladów lub danych wyjściowych agenta.
Wymagania
Tabele wnioskowania muszą być włączone w punkcie końcowym obsługującym agenta.
Każdy recenzent musi mieć dostęp do obszaru roboczego przeglądu aplikacji lub być zsynchronizowany z kontem usługi Databricks za pomocą rozwiązania SCIM. Zobacz następną sekcję Konfigurowanie uprawnień do korzystania z aplikacji do przeglądu.
Deweloperzy muszą zainstalować zestaw SDK,
databricks-agents
aby skonfigurować uprawnienia i skonfigurować aplikację do przeglądu.%pip install databricks-agents dbutils.library.restartPython()
Konfigurowanie uprawnień do korzystania z aplikacji do przeglądu
Uwaga
Recenzenci nie wymagają dostępu do obszaru roboczego w celu korzystania z aplikacji do przeglądu.
Możesz udzielić dostępu do aplikacji do przeglądu dla dowolnego użytkownika na koncie usługi Databricks, nawet jeśli nie ma dostępu do obszaru roboczego zawierającego aplikację do przeglądu.
- W przypadku użytkowników, którzy nie mają dostępu do obszaru roboczego, administrator konta używa aprowizacji SCIM na poziomie konta, aby automatycznie synchronizować użytkowników i grupy z dostawcy tożsamości do konta usługi Azure Databricks. Możesz również ręcznie zarejestrować tych użytkowników i grupy w celu udzielenia im dostępu podczas konfigurowania tożsamości w usłudze Databricks. Zobacz Synchronizowanie użytkowników i grup z identyfikatora Entra firmy Microsoft.
- W przypadku użytkowników, którzy mają już dostęp do obszaru roboczego zawierającego aplikację do przeglądu, nie jest wymagana żadna dodatkowa konfiguracja.
Poniższy przykład kodu pokazuje, jak udzielić użytkownikom uprawnień do przeglądu aplikacji dla agenta. Parametr users
przyjmuje listę adresów e-mail.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
Aby przejrzeć dziennik czatów, użytkownik musi mieć CAN_REVIEW
uprawnienie.
Wdrażanie aplikacji do przeglądu
Podczas wdrażania agenta przy użyciu programu agents.deploy()
aplikacja do przeglądu jest automatycznie włączana i wdrażana. Dane wyjściowe polecenia zawierają adres URL aplikacji do przeglądu. Aby uzyskać informacje na temat wdrażania agenta, zobacz Wdrażanie agenta na potrzeby generowania aplikacji sztucznej inteligencji.
Jeśli utracisz link do wdrożenia, możesz go znaleźć przy użyciu polecenia list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
Przeglądanie interfejsu użytkownika aplikacji
Aby otworzyć aplikację do przeglądu, kliknij podany adres URL. Interfejs użytkownika aplikacji przeglądu ma trzy karty na lewym pasku bocznym:
- Instrukcje wyświetla instrukcje recenzenta. Zobacz Zapewnianie instrukcji recenzentom.
- Czaty w celu przejrzenia wyświetlania dzienników z interakcji recenzentów z aplikacją do oceny przez ekspertów. Zobacz Expert review of logs from other user's interactions with the app (Przegląd ekspertów dzienników z interakcji innych użytkowników z aplikacją).
- Przetestuj bota Umożliwia recenzentom czatowanie z aplikacją i przesyłanie recenzji odpowiedzi. Zobacz Czat z aplikacją i prześlij recenzje.
Po otwarciu aplikacji do przeglądu zostanie wyświetlona strona instrukcji.
- Aby porozmawiać z botem, kliknij przycisk Rozpocznij przeglądanie lub wybierz pozycję Przetestuj bota na lewym pasku bocznym. Aby uzyskać więcej informacji, zobacz Czat z aplikacją i prześlij recenzje .
- Aby przejrzeć dzienniki czatów, które zostały udostępnione do przeglądu, wybierz pozycję Czaty do przejrzenia na pasku bocznym. Szczegółowe informacje można znaleźć w artykule Expert review of logs from other user's interactions with the app (Przegląd ekspertów dzienników z interakcji innych użytkowników z aplikacją ). Aby dowiedzieć się, jak udostępnić dzienniki czatów w aplikacji do przeglądu, zobacz Udostępnianie dzienników czatów do oceny przez ekspertów recenzentów.
Podaj instrukcje dla recenzentów
Aby podać niestandardowy tekst instrukcji wyświetlanych dla recenzentów, użyj następującego kodu:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
Rozmowa z aplikacją i przesyłanie recenzji
Aby porozmawiać z aplikacją i przesłać recenzje:
Kliknij pozycję Przetestuj bota na pasku bocznym po lewej stronie.
Wpisz pytanie w polu i naciśnij Return lub Enter na klawiaturze lub kliknij strzałkę w polu.
Aplikacja wyświetla swoją odpowiedź na twoje pytanie oraz źródła użyte do znalezienia odpowiedzi.
Uwaga
Jeśli agent używa programu retriever, źródła danych są identyfikowane przez pole
doc_uri
ustawione przez schemat programu retriever zdefiniowany podczas tworzenia agenta. Zobacz Ustaw schemat retrievera.Przejrzyj odpowiedź aplikacji i wybierz pozycję Tak, Nie lub Nie wiem.
Aplikacja prosi o dodatkowe informacje. Zaznacz odpowiednie pola lub wpisz swoje komentarze w podanym polu.
Możesz również edytować odpowiedź bezpośrednio, aby zapewnić lepszą odpowiedź. Aby edytować odpowiedź, kliknij pozycję Edytuj odpowiedź, wprowadź zmiany w oknie dialogowym, a następnie kliknij przycisk Zapisz, jak pokazano w poniższym filmie wideo.
Kliknij przycisk Gotowe , aby zapisać swoją opinię.
Kontynuuj zadawanie pytań, aby przekazać dodatkową opinię.
Na poniższym diagramie przedstawiono ten przepływ pracy.
- Korzystanie z aplikacji do przeglądania, czaty recenzenta z aplikacją agenta.
- Korzystając z aplikacji do przeglądu, recenzent udostępnia opinię na temat odpowiedzi aplikacji.
- Wszystkie żądania, odpowiedzi i opinie są rejestrowane w tabelach wnioskowania.
Udostępnianie dzienników czatów do oceny przez recenzentów ekspertów
Gdy użytkownik wchodzi w interakcję z aplikacją przy użyciu interfejsu API REST lub aplikacji do przeglądu, wszystkie żądania, odpowiedzi i dodatkowe opinie są zapisywane w tabelach wnioskowania. Tabele wnioskowania znajdują się w tym samym wykazie wykazu aparatu Unity i schemacie, w którym model został zarejestrowany i mają nazwę <model_name>_payload
, <model_name>_payload_assessment_logs
i <model_name>_payload_request_logs
. Aby uzyskać więcej informacji na temat tych tabel, w tym schematów, zobacz Tabele wnioskowania rozszerzonego agenta.
Aby załadować te dzienniki do aplikacji do oceny przez recenzentów ekspertów, należy najpierw znaleźć request_id
i włączyć przeglądy dla tego request_id
w następujący sposób:
Znajdź s
request_id
do przejrzenia z<model_name>_payload_request_logs
tabeli wnioskowania. Tabela wnioskowania znajduje się w tym samym wykazie wykazu aparatu Unity i schemacie, w którym zarejestrowano model.Użyj kodu podobnego do poniższego, aby załadować dzienniki przeglądu do aplikacji przeglądu:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
Komórka wyników zawiera link do aplikacji do przeglądu z wybranymi dziennikami załadowanymi do przeglądu.
Przegląd ekspertów dzienników z interakcji innych użytkowników z aplikacją
Aby przejrzeć dzienniki z poprzednich czatów, dzienniki muszą być włączone do przeglądu. Zobacz Udostępnianie dzienników czatów do oceny przez recenzentów ekspertów.
Na lewym pasku bocznym aplikacji do przeglądu wybierz pozycję Czaty, aby przejrzeć. Zostaną wyświetlone włączone żądania.
Kliknij żądanie, aby wyświetlić je do przeglądu.
Przejrzyj żądanie i odpowiedź. Aplikacja pokazuje również źródła używane do celów referencyjnych. Możesz je kliknąć, aby przejrzeć odwołanie i przekazać opinię na temat istotności źródła.
Aby przekazać opinię na temat jakości odpowiedzi, wybierz pozycję Tak, Nie lub Nie wiem.
Aplikacja prosi o dodatkowe informacje. Zaznacz odpowiednie pola lub wpisz swoje komentarze w podanym polu.
Możesz również edytować odpowiedź bezpośrednio, aby zapewnić lepszą odpowiedź. Aby edytować odpowiedź, kliknij pozycję Edytuj odpowiedź, wprowadź zmiany w oknie dialogowym, a następnie kliknij przycisk Zapisz. Zobacz Czat z aplikacją i prześlij recenzje wideo przedstawiające proces.
Kliknij przycisk Gotowe , aby zapisać swoją opinię.
Na poniższym diagramie przedstawiono ten przepływ pracy.
- Korzystając z funkcji przeglądania aplikacji lub aplikacji niestandardowej, recenzenci rozmawiają z aplikacją agenta.
- Wszystkie żądania i odpowiedzi są rejestrowane w tabelach wnioskowania.
- Deweloper aplikacji używa
enable_trace_reviews([request_id])
(gdzierequest_id
pochodzi z<model_name>_payload_request_logs
tabeli wnioskowania) do publikowania dzienników czatów w celu przejrzenia aplikacji. - Korzystanie z aplikacji do przeglądu, dzienniki ekspertów i przekazywanie opinii. Opinie ekspertów są rejestrowane w tabelach wnioskowania.
Uwaga
Jeśli masz włączoną zaporę usługi Azure Storage, skontaktuj się z zespołem konta usługi Azure Databricks, aby włączyć tabele wnioskowania dla punktów końcowych.
Użyj mlflow.evaluate()
w tabeli dzienników żądań
W poniższym notesie pokazano, jak używać dzienników z aplikacji przeglądu jako danych wejściowych do przebiegu oceny przy użyciu polecenia mlflow.evaluate()
.