Definiowanie "jakości": zestawy ewaluacyjne
W tym artykule opisano zestawy ewaluacyjne i sposób, w jaki pomagają zapewnić jakość aplikacji.
Co to jest zestaw oceny?
Aby zmierzyć jakość, usługa Databricks zaleca utworzenie zestawu oceny oznaczonego przez człowieka. Zestaw oceny to wyselekcjonowany, reprezentatywny zestaw zapytań wraz z odpowiedziami podstawy i (opcjonalnie) prawidłowymi dokumentami pomocniczymi, które należy pobrać. Dane wejściowe człowieka mają kluczowe znaczenie w tym procesie, ponieważ gwarantuje, że zestaw oceny dokładnie odzwierciedla oczekiwania i wymagania użytkowników końcowych.
Ograniczenie etykiet ludzkich może być czasochłonnym procesem. Możesz rozpocząć od utworzenia zestawu ewaluacyjnego zawierającego tylko pytania i dodać odpowiedzi na podstawowe informacje z upływem czasu. Mozaika AI Agent Evaluation może ocenić jakość łańcucha bez podstawowej prawdy, chociaż, jeśli prawda jest dostępna, oblicza dodatkowe metryki, takie jak poprawność odpowiedzi.
Elementy dobrego zestawu oceny
Dobry zestaw oceny ma następujące cechy:
- Przedstawiciel: Dokładnie odzwierciedla różne żądania, które aplikacja napotka w środowisku produkcyjnym.
- Trudne: zestaw powinien zawierać trudne i zróżnicowane przypadki, aby skutecznie przetestować możliwości modelu. W idealnym przypadku zawiera on niepożądane przykłady, takie jak pytania próbujące monitować iniekcję lub pytania próbujące wygenerować niewłaściwe odpowiedzi z usługi LLM.
- Stale aktualizowane: zestaw musi być okresowo aktualizowany w celu odzwierciedlenia sposobu użycia aplikacji w środowisku produkcyjnym, zmiany charakteru indeksowanych danych i wszelkich zmian wymagań aplikacji.
Usługa Databricks zaleca co najmniej 30 pytań w zestawie oceny i najlepiej 100–200. Najlepsze zestawy oceny będą rosnąć wraz z upływem czasu, aby zawierały 1000 pytań.
Zestawy trenowania, testowania i walidacji
Aby uniknąć nadmiernego dopasowania, usługa Databricks zaleca podzielenie zestawu oceny na zestawy trenowania, testowania i walidacji:
- Zestaw szkoleniowy: ok. 70% pytań. Służy do początkowego przekazywania w celu oceny każdego eksperymentu w celu zidentyfikowania najwyższych potencjalnych.
- Zestaw testów: ok. 20% pytań. Służy do oceniania eksperymentów o najwyższej wydajności z zestawu treningowego.
- Zestaw weryfikacji: ok. 10% pytań. Służy do ostatecznego sprawdzania poprawności przed wdrożeniem eksperymentu w środowisku produkcyjnym.
Ocena agenta mozaiki sztucznej inteligencji pomaga utworzyć zestaw oceny, udostępniając internetowy interfejs czatu dla uczestników projektu w celu przekazania opinii na temat danych wyjściowych aplikacji. Dane wyjściowe łańcucha i opinie uczestników projektu są zapisywane w tabelach delta, które następnie można wyselekcjonować do zestawu oceny. Zapoznaj się z tematem curating an evaluation set in the implement (Implementacja tego podręcznika), aby uzyskać instrukcje praktyczne z przykładowym kodem.