Używanie testów porównawczych w przestrzeni Genie
W tym artykule wyjaśniono, jak używać testów porównawczych do oceny dokładności przestrzeni Genie.
Przegląd
Testy porównawcze umożliwiają utworzenie zestawu pytań testowych, które można uruchomić w celu oceny ogólnej dokładności odpowiedzi genie. Dobrze zaprojektowany zestaw testów porównawczych obejmujących najczęściej zadawane pytania użytkownika pomaga ocenić dokładność przestrzeni Genie podczas jego uściślenia.
Dodawanie pytań dotyczących testów porównawczych
Pytania porównawcze powinny odzwierciedlać różne sposoby fraz typowych pytań, które zadają użytkownicy. Można ich używać do sprawdzania odpowiedzi Genie na odmiany fraz pytań lub różnych formatów pytań.
Podczas tworzenia pytania porównawczego możesz opcjonalnie dołączyć zapytanie SQL, którego zestaw wyników jest prawidłową odpowiedzią. Podczas przebiegów testów porównawczych dokładność jest oceniana przez porównanie zestawu wyników z zapytania SQL do tego wygenerowanego przez usługę Genie.
Aby dodać pytanie porównawcze, wykonaj następujące kroki:
Kliknij przycisk na lewym pasku bocznym w obszarze Genie.
Kliknij kartę Pytania . Następnie kliknij pozycję Dodaj test porównawczy.
W polu Pytanie wprowadź pytanie porównawcze do przetestowania.
(Opcjonalnie) Wprowadź instrukcję SQL, która dokładnie odpowiada na wprowadzone pytanie.
Uwaga
Ten krok jest zalecany. Tylko pytania, które zawierają tę przykładowe instrukcje SQL, można automatycznie ocenić pod kątem dokładności. Wszelkie pytania, które nie zawierają odpowiedzi SQL, wymagają oceny ręcznej recenzji.
(Opcjonalnie) Kliknij pozycję Uruchom, aby uruchomić zapytanie i wyświetlić wyniki.
Po zakończeniu edytowania kliknij pozycję Dodaj test porównawczy.
Aby zaktualizować pytanie po zapisaniu, kliknij ikonę ołówka, aby otworzyć okno dialogowe Aktualizowanie pytania .
Używanie testów porównawczych do testowania alternatywnych fraz pytań
Podczas oceniania dokładności przestrzeni Genie ważne jest, aby strukturę testów odzwierciedlało realistyczne scenariusze. Użytkownicy mogą zadać to samo pytanie na różne sposoby. Usługa Databricks zaleca dodanie wielu fraz tego samego pytania i użycie tego samego przykładowego kodu SQL w testach porównawczych w celu pełnej oceny dokładności. Większość spacji Genie powinna zawierać od 2 do 4 fraz tego samego pytania.
Uruchamianie pytań dotyczących testów porównawczych
Użytkownicy z co najmniej uprawnieniami CAN EDIT w obszarze Genie mogą w dowolnym momencie utworzyć test porównawczy, który automatycznie oceni wszystkie pytania porównawcze. Aby ocenić każde pytanie porównawcze, najpierw prześlemy pytanie do Genie, a następnie porównamy wyniki Genie z testem porównawczym. Do każdego testu porównawczego zastosowano jedną z następujących etykiet:
- Dobra: odpowiedzi są oznaczone tą etykietą, gdy wynik zapytania wygenerowanego przez genie jest zgodny z wynikami z podanej odpowiedzi SQL. Gdy odpowiedź jest oznaczona jako Dobra, oznacza to, że wartości wierszy są dokładnie zgodne, niezależnie od kolejności sortowania lub nazw kolumn.
- Przegląd potrzeb: odpowiedzi są oznaczone tą etykietą, gdy Usługa Genie nie może ocenić poprawności lub gdy wyniki zapytania wygenerowane przez genie nie są zgodne z wynikami podanej odpowiedzi SQL. Jeśli istnieją nieoczekiwane zmiany wymiarów tabel w wygenerowanej odpowiedzi lub podanej odpowiedzi SQL, pytanie może zostać oznaczone do przeglądu. Wszelkie pytania porównawcze, które nie zawierają odpowiedzi SQL, należy przejrzeć ręcznie.
- Złe: Odpowiedzi nigdy nie są automatycznie oznaczone jako Nieprawidłowe. Jeśli wyniki zapytania wygenerowanego przez genie nie pasują do zestawu wyników z podanej odpowiedzi SQL, pytanie jest oznaczone jako Przegląd potrzeb. Podczas przeglądania tych testów porównawczych możesz oznaczyć wynik jako Nieprawidłowy , jeśli nie sądzisz, że wygenerowane wyniki zapytania genie odpowiadają na pytanie.
Aby uruchomić wszystkie pytania porównawcze:
- Kliknij pozycję Benchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.
- Kliknij pozycję Uruchom testy porównawcze , aby rozpocząć przebieg testu.
Uwaga
Jeśli zamkniesz tę stronę, przebieg testu porównawczego zostanie automatycznie wstrzymany. Test można wznowić po ponownym otwarciu strony.
Oceny testów porównawczych dostępu
Możesz uzyskać dostęp do wszystkich ocen porównawczych, aby śledzić dokładność w przestrzeni Genie w czasie. Po kliknięciu na lewym pasku bocznym w obszarze Genie zostanie wyświetlona lista czasowa przebiegów oceny na karcie Oceny . Jeśli nie znaleziono żadnych przebiegów oceny, zobacz Dodawanie pytań porównawczych lub Uruchamianie pytań porównawczych.
Zakładka Oceny zawiera przegląd ocen oraz ich wyników zgłoszonych w następujących kategoriach:
Nazwa oceny: sygnatura czasowa wskazująca, kiedy wystąpił przebieg oceny. Kliknij znacznik czasu, aby wyświetlić szczegółowe informacje dotyczące tej oceny. Stan wykonania: wskazuje, czy ocena została ukończona, wstrzymana lub nieudana. Jeśli przebieg oceny zawiera pytania porównawcze, które nie mają wstępnie zdefiniowanych odpowiedzi SQL, zostanie on oznaczony do przeglądu w tej kolumnie. Dokładność: ocena liczbowa dokładności we wszystkich pytaniach porównawczych. W przypadku przebiegów oceny, które wymagają ręcznego przeglądu, miara dokładności jest wyświetlana dopiero po przejrzeniu tych pytań. Utworzone przez: wskazuje nazwę użytkownika, który uruchomił ocenę.
Przeglądanie indywidualnych ocen
Poszczególne oceny można przejrzeć, aby uzyskać szczegółowe informacje na temat każdej odpowiedzi. Możesz edytować ocenę pod kątem dowolnego pytania i aktualizować wszystkie elementy, które wymagają ręcznego przeglądu.
Aby przejrzeć poszczególne oceny:
Kliknij pozycję Benchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.
Kliknij znacznik czasu dla dowolnej oceny w kolumnie Nazwa oceny, aby otworzyć szczegółowy widok tego przebiegu testu.
Kliknij pytanie w pobliżu lewej strony ekranu, aby wyświetlić skojarzone szczegóły. Użyj ekranu szczegółów oceny, aby wykonać następne kroki.
Przejrzyj i porównaj odpowiedź danych wyjściowych modelu z odpowiedzią Podstawy prawdy .
Uwaga
Wyniki tych odpowiedzi są wyświetlane w szczegółach oceny przez jeden tydzień. Po upływie jednego tygodnia wyniki nie są już widoczne. Wygenerowana instrukcja SQL i przykładowa instrukcja SQL pozostają.
Kliknij etykietę, aby edytować ocenę.
Oznacz każdy wynik jako dobry lub zły , aby uzyskać dokładny wynik dla tej oceny.