Używanie testów porównawczych w przestrzeni Genie
W tym artykule wyjaśniono, jak używać testów porównawczych do oceny dokładności przestrzeni Genie.
Przegląd
Benchmarki umożliwiają utworzenie set pytań testowych, które można uruchomić w celu oceny dokładności ogólnej odpowiedzi Genie. Dobrze zaprojektowana set benchmarków obejmujących najczęściej zadawane pytania użytkowników pomaga ocenić dokładność twojej przestrzeni Genie podczas jej udoskonalania.
Pytania benchmarkowe są uruchamiane jako nowe konwersacje. Nie mają tego samego kontekstu co wątkowa rozmowa Genie. Każde pytanie jest przetwarzane jako nowe zapytanie, korzystając z instrukcji zdefiniowanych w przestrzeni, w tym wszystkich podanych przykładowych funkcji SQL i SQL.
Dodawanie pytań dotyczących testów porównawczych
Pytania porównawcze powinny odzwierciedlać różne sposoby fraz typowych pytań, które zadają użytkownicy. Można ich używać do sprawdzania odpowiedzi Genie na odmiany fraz pytań lub różnych formatów pytań.
Podczas tworzenia pytania porównawczego możesz opcjonalnie dołączyć zapytanie SQL, którego wynik set jest prawidłową odpowiedzią. Podczas przebiegów testów porównawczych dokładność jest oceniana przez porównanie wyniku set z zapytania SQL do wyniku wygenerowanego przez usługę Genie.
Aby dodać pytanie porównawcze, wykonaj następujące kroki:
Kliknij przycisk na
lewym pasku bocznym w obszarze Genie.
Kliknij kartę Pytania . Następnie kliknij pozycję Dodaj test porównawczy.
W polu Pytanie wprowadź pytanie porównawcze do przetestowania.
(Opcjonalnie) Wprowadź instrukcję SQL, która dokładnie odpowiada na wprowadzone pytanie.
Uwaga
Ten krok jest zalecany. Tylko pytania, które zawierają tę przykładowe instrukcje SQL, można automatycznie ocenić pod kątem dokładności. Wszelkie pytania, które nie zawierają odpowiedzi SQL, wymagają oceny ręcznej recenzji.
(Opcjonalnie) Kliknij pozycję Uruchom, aby uruchomić zapytanie i wyświetlić wyniki.
Po zakończeniu edytowania kliknij pozycję Dodaj test porównawczy.
Aby
pytanie po zapisaniu, kliknij ikonę , aby otworzyć okno dialogowe pytaniaEdytuj ikonę ołówka .
Używanie testów porównawczych do testowania alternatywnych fraz pytań
Podczas oceniania dokładności przestrzeni Genie ważne jest, aby strukturę testów odzwierciedlało realistyczne scenariusze. Użytkownicy mogą zadać to samo pytanie na różne sposoby. Usługa Databricks zaleca dodanie wielu fraz tego samego pytania i użycie tego samego przykładowego kodu SQL w testach porównawczych w celu pełnej oceny dokładności. Większość spacji Genie powinna zawierać od 2 do 4 fraz tego samego pytania.
Uruchamianie pytań dotyczących testów porównawczych
Użytkownicy z co najmniej uprawnieniami CAN EDIT w obszarze Genie mogą w dowolnym momencie utworzyć test porównawczy, który automatycznie oceni wszystkie pytania porównawcze. Aby ocenić każde pytanie porównawcze, najpierw prześlemy pytanie do Genie, a następnie porównamy wyniki Genie z testem porównawczym. Do każdego testu porównawczego zastosowano jedną z następujących etykiet:
- Dobra: odpowiedzi są oznaczone tą etykietą, gdy wynik zapytania wygenerowanego przez genie jest zgodny z wynikami z podanej odpowiedzi SQL. Gdy odpowiedź jest oznaczona jako Good, oznacza to dokładne dopasowanie wiersza values, niezależnie od kolejności sortowania czy nazw column.
- Przegląd potrzeb: odpowiedzi są oznaczone tą etykietą, gdy Usługa Genie nie może ocenić poprawności lub gdy wyniki zapytania wygenerowane przez genie nie są zgodne z wynikami podanej odpowiedzi SQL. Jeśli istnieją nieoczekiwane zmiany wymiarów tables w wygenerowanej odpowiedzi lub podanej odpowiedzi SQL, pytanie może zostać oznaczone do przeglądu. Wszelkie pytania porównawcze, które nie zawierają odpowiedzi SQL, należy przejrzeć ręcznie.
- Złe: Odpowiedzi nigdy nie są automatycznie oznaczone jako Nieprawidłowe. Jeśli wyniki zapytania wygenerowanego przez Genie nie są zgodne z wynikiem set z podanej SQL Answer, pytanie jest oznaczone jako Wymaga Przeglądu. Podczas przeglądania tych testów porównawczych możesz oznaczyć wynik jako Nieprawidłowy , jeśli nie sądzisz, że wygenerowane wyniki zapytania genie odpowiadają na pytanie.
Aby uruchomić wszystkie pytania porównawcze:
- Kliknij pozycję
Benchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.
- Kliknij pozycję Uruchom testy porównawcze , aby rozpocząć przebieg testu.
Uwaga
Jeśli zamkniesz tę stronę, przebieg testu porównawczego zostanie automatycznie wstrzymany. Test można wznowić po ponownym otwarciu strony.
Oceny testów porównawczych dostępu
Możesz uzyskać dostęp do wszystkich ocen porównawczych, aby śledzić dokładność w przestrzeni Genie w czasie. Po kliknięciu ikony testów porównawczych na lewym pasku bocznym w obiekcie Genie zostaną wyświetlone przebiegi oceny z oznaczeniem czasowym list na karcie Oceny. Jeśli nie znaleziono żadnych przebiegów oceny, sprawdź Dodaj pytania testów porównawczych lub Uruchom pytania testów porównawczych.
Zakładka Oceny zawiera przegląd ocen oraz ich wyników zgłoszonych w następujących kategoriach:
Nazwa oceny: sygnatura czasowa wskazująca, kiedy wystąpił przebieg oceny. Kliknij znacznik czasu, aby wyświetlić szczegółowe informacje dotyczące tej oceny. Stan wykonania: wskazuje, czy ocena została ukończona, wstrzymana lub nieudana. Jeśli przebieg procesu oceny zawiera pytania porównawcze, które nie mają wstępnie zdefiniowanych odpowiedzi SQL, jest on oznaczony do sprawdzenia w tym column. Dokładność: ocena liczbowa dokładności we wszystkich pytaniach porównawczych. W przypadku przebiegów oceny, które wymagają ręcznego przeglądu, miara dokładności jest wyświetlana dopiero po przejrzeniu tych pytań. Utworzone przez: wskazuje nazwę użytkownika, który uruchomił ocenę.
Przeglądanie indywidualnych ocen
Poszczególne oceny można przejrzeć, aby get szczegółowe spojrzenie na każdą odpowiedź. Możesz edytować ocenę pod kątem dowolnego pytania i update wszystkich elementów, które wymagają ręcznego przeglądu.
Aby przejrzeć poszczególne oceny:
Kliknij pozycję
Benchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.
Kliknij znacznik czasu dla dowolnej oceny w nazwie oceny column, aby otworzyć szczegółowy widok tego przebiegu testu.
Kliknij pytanie w pobliżu lewej strony ekranu, aby wyświetlić skojarzone szczegóły. Użyj ekranu szczegółów oceny, aby wykonać następne kroki.
Przejrzyj i porównaj odpowiedź danych wyjściowych modelu z odpowiedzią Podstawy prawdy .
Uwaga
Wyniki tych odpowiedzi są wyświetlane w szczegółach oceny przez jeden tydzień. Po upływie jednego tygodnia wyniki nie są już widoczne. Wygenerowana instrukcja SQL i przykładowa instrukcja SQL pozostają.
Kliknij etykietę, aby edytować ocenę.
Oznacz każdy wynik jako Dobry lub Zły, aby get uzyskać dokładny wynik dla tej oceny.