Udostępnij za pośrednictwem


Używanie testów porównawczych w przestrzeni Genie

W tym artykule wyjaśniono, jak używać testów porównawczych do oceny dokładności przestrzeni Genie.

Przegląd

Benchmarki umożliwiają utworzenie set pytań testowych, które można uruchomić w celu oceny dokładności ogólnej odpowiedzi Genie. Dobrze zaprojektowana set benchmarków obejmujących najczęściej zadawane pytania użytkowników pomaga ocenić dokładność twojej przestrzeni Genie podczas jej udoskonalania.

Pytania benchmarkowe są uruchamiane jako nowe konwersacje. Nie mają tego samego kontekstu co wątkowa rozmowa Genie. Każde pytanie jest przetwarzane jako nowe zapytanie, korzystając z instrukcji zdefiniowanych w przestrzeni, w tym wszystkich podanych przykładowych funkcji SQL i SQL.

Przykładowe testy porównawcze z dokładnością ocenioną na podstawie dziewięciu pytań.

Dodawanie pytań dotyczących testów porównawczych

Pytania porównawcze powinny odzwierciedlać różne sposoby fraz typowych pytań, które zadają użytkownicy. Można ich używać do sprawdzania odpowiedzi Genie na odmiany fraz pytań lub różnych formatów pytań.

Podczas tworzenia pytania porównawczego możesz opcjonalnie dołączyć zapytanie SQL, którego wynik set jest prawidłową odpowiedzią. Podczas przebiegów testów porównawczych dokładność jest oceniana przez porównanie wyniku set z zapytania SQL do wyniku wygenerowanego przez usługę Genie.

Aby dodać pytanie porównawcze, wykonaj następujące kroki:

  1. Kliknij przycisk na Ikona testów porównawczych lewym pasku bocznym w obszarze Genie.

  2. Kliknij kartę Pytania . Następnie kliknij pozycję Dodaj test porównawczy.

  3. W polu Pytanie wprowadź pytanie porównawcze do przetestowania.

  4. (Opcjonalnie) Wprowadź instrukcję SQL, która dokładnie odpowiada na wprowadzone pytanie.

    Uwaga

    Ten krok jest zalecany. Tylko pytania, które zawierają tę przykładowe instrukcje SQL, można automatycznie ocenić pod kątem dokładności. Wszelkie pytania, które nie zawierają odpowiedzi SQL, wymagają oceny ręcznej recenzji.

  5. (Opcjonalnie) Kliknij pozycję Uruchom, aby uruchomić zapytanie i wyświetlić wyniki.

  6. Po zakończeniu edytowania kliknij pozycję Dodaj test porównawczy.

  7. Aby pytanie po zapisaniu, kliknij ikonę Edytuj ikonę ołówka, aby otworzyć okno dialogowe pytania .

Używanie testów porównawczych do testowania alternatywnych fraz pytań

Podczas oceniania dokładności przestrzeni Genie ważne jest, aby strukturę testów odzwierciedlało realistyczne scenariusze. Użytkownicy mogą zadać to samo pytanie na różne sposoby. Usługa Databricks zaleca dodanie wielu fraz tego samego pytania i użycie tego samego przykładowego kodu SQL w testach porównawczych w celu pełnej oceny dokładności. Większość spacji Genie powinna zawierać od 2 do 4 fraz tego samego pytania.

Uruchamianie pytań dotyczących testów porównawczych

Użytkownicy z co najmniej uprawnieniami CAN EDIT w obszarze Genie mogą w dowolnym momencie utworzyć test porównawczy, który automatycznie oceni wszystkie pytania porównawcze. Aby ocenić każde pytanie porównawcze, najpierw prześlemy pytanie do Genie, a następnie porównamy wyniki Genie z testem porównawczym. Do każdego testu porównawczego zastosowano jedną z następujących etykiet:

  • Dobra: odpowiedzi są oznaczone tą etykietą, gdy wynik zapytania wygenerowanego przez genie jest zgodny z wynikami z podanej odpowiedzi SQL. Gdy odpowiedź jest oznaczona jako Good, oznacza to dokładne dopasowanie wiersza values, niezależnie od kolejności sortowania czy nazw column.
  • Przegląd potrzeb: odpowiedzi są oznaczone tą etykietą, gdy Usługa Genie nie może ocenić poprawności lub gdy wyniki zapytania wygenerowane przez genie nie są zgodne z wynikami podanej odpowiedzi SQL. Jeśli istnieją nieoczekiwane zmiany wymiarów tables w wygenerowanej odpowiedzi lub podanej odpowiedzi SQL, pytanie może zostać oznaczone do przeglądu. Wszelkie pytania porównawcze, które nie zawierają odpowiedzi SQL, należy przejrzeć ręcznie.
  • Złe: Odpowiedzi nigdy nie są automatycznie oznaczone jako Nieprawidłowe. Jeśli wyniki zapytania wygenerowanego przez Genie nie są zgodne z wynikiem set z podanej SQL Answer, pytanie jest oznaczone jako Wymaga Przeglądu. Podczas przeglądania tych testów porównawczych możesz oznaczyć wynik jako Nieprawidłowy , jeśli nie sądzisz, że wygenerowane wyniki zapytania genie odpowiadają na pytanie.

Aby uruchomić wszystkie pytania porównawcze:

  1. Kliknij pozycję Ikona testów porównawczychBenchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.
  2. Kliknij pozycję Uruchom testy porównawcze , aby rozpocząć przebieg testu.

Uwaga

Jeśli zamkniesz tę stronę, przebieg testu porównawczego zostanie automatycznie wstrzymany. Test można wznowić po ponownym otwarciu strony.

Oceny testów porównawczych dostępu

Możesz uzyskać dostęp do wszystkich ocen porównawczych, aby śledzić dokładność w przestrzeni Genie w czasie. Po kliknięciu ikony testów porównawczych na lewym pasku bocznym w obiekcie Genie zostaną wyświetlone przebiegi oceny z oznaczeniem czasowym list na karcie Oceny. Jeśli nie znaleziono żadnych przebiegów oceny, sprawdź Dodaj pytania testów porównawczych lub Uruchom pytania testów porównawczych.

Ekran Oceny zgodnie z opisem w poniższym tekście.

Zakładka Oceny zawiera przegląd ocen oraz ich wyników zgłoszonych w następujących kategoriach:

Nazwa oceny: sygnatura czasowa wskazująca, kiedy wystąpił przebieg oceny. Kliknij znacznik czasu, aby wyświetlić szczegółowe informacje dotyczące tej oceny. Stan wykonania: wskazuje, czy ocena została ukończona, wstrzymana lub nieudana. Jeśli przebieg procesu oceny zawiera pytania porównawcze, które nie mają wstępnie zdefiniowanych odpowiedzi SQL, jest on oznaczony do sprawdzenia w tym column. Dokładność: ocena liczbowa dokładności we wszystkich pytaniach porównawczych. W przypadku przebiegów oceny, które wymagają ręcznego przeglądu, miara dokładności jest wyświetlana dopiero po przejrzeniu tych pytań. Utworzone przez: wskazuje nazwę użytkownika, który uruchomił ocenę.

Przeglądanie indywidualnych ocen

Poszczególne oceny można przejrzeć, aby get szczegółowe spojrzenie na każdą odpowiedź. Możesz edytować ocenę pod kątem dowolnego pytania i update wszystkich elementów, które wymagają ręcznego przeglądu.

Aby przejrzeć poszczególne oceny:

  1. Kliknij pozycję Ikona testów porównawczychBenchmarks (Testy porównawcze ) na pasku bocznym Obszaru Genie w pobliżu lewej strony ekranu.

  2. Kliknij znacznik czasu dla dowolnej oceny w nazwie oceny column, aby otworzyć szczegółowy widok tego przebiegu testu.

    Ekran przedstawiający wyniki pojedynczego przebiegu oceny. Wszystkie pytania są wyświetlane po lewej stronie. Jeśli ma to zastosowanie, poszczególne pytania są wyświetlane po prawej stronie z danymi wyjściowymi modelu i danymi wyjściowymi podstawy prawdy.

  3. Kliknij pytanie w pobliżu lewej strony ekranu, aby wyświetlić skojarzone szczegóły. Użyj ekranu szczegółów oceny, aby wykonać następne kroki.

  4. Przejrzyj i porównaj odpowiedź danych wyjściowych modelu z odpowiedzią Podstawy prawdy .

    Uwaga

    Wyniki tych odpowiedzi są wyświetlane w szczegółach oceny przez jeden tydzień. Po upływie jednego tygodnia wyniki nie są już widoczne. Wygenerowana instrukcja SQL i przykładowa instrukcja SQL pozostają.

  5. Ikona Edytuj Kliknij etykietę, aby edytować ocenę.

    Oznacz każdy wynik jako Dobry lub Zły, aby get uzyskać dokładny wynik dla tej oceny.