Przesyłanie przebiegu wsadowego i ocena przepływu

Artykuł
10/16/2024

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Aby ocenić, jak dobrze działa przepływ za pomocą dużego zestawu danych, możesz przesłać przebieg wsadowy i użyć metody oceny w przepływie monitu.

Z tego artykułu dowiesz się, jak wykonywać następujące elementy:

Przesyłanie przebiegu wsadowego i używanie metody ewaluacyjnej
Wyświetlanie wyników i metryk oceny
Rozpocznij nową rundę oceny
Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk
Omówienie wbudowanych metod oceny
Sposoby poprawy wydajności przepływu

Wymagania wstępne

W przypadku uruchomienia wsadowego i użycia metody ewaluacyjnej należy przygotować następujące elementy:

Testowy zestaw danych dla przebiegu wsadowego. Zestaw danych powinien mieć jeden z następujących formatów: .csv, lub .tsv.jsonl. Dane powinny również zawierać nagłówki zgodne z nazwami wejściowymi przepływu. Jeśli dane wejściowe przepływu zawierają złożoną strukturę, na przykład listę lub słownik, użyj jsonl formatu do reprezentowania danych.
Dostępna sesja obliczeniowa do uruchomienia przebiegu wsadowego. Sesja obliczeniowa to zasób oparty na chmurze, który wykonuje przepływ i generuje dane wyjściowe. Aby dowiedzieć się więcej na temat sesji obliczeniowych, zobacz Sesja obliczeniowa.

Przesyłanie przebiegu wsadowego i używanie metody ewaluacyjnej

Uruchomienie wsadowe umożliwia uruchamianie przepływu z dużym zestawem danych i generowanie danych wyjściowych dla każdego wiersza danych. Możesz również wybrać metodę oceny, aby porównać dane wyjściowe przepływu z określonymi kryteriami i celami. Metoda oceny to specjalny typ przepływu , który oblicza metryki dla danych wyjściowych przepływu na podstawie różnych aspektów. Przebieg oceny jest wykonywany, aby obliczyć metryki po przesłaniu przy użyciu przebiegu wsadowego.

Aby rozpocząć uruchamianie wsadowe z oceną, możesz wybrać przycisk Oceń — ocena niestandardowa. Wybierając pozycję Ocena niestandardowa, możesz przesłać przebieg wsadowy z metodami oceny lub przesłać przebieg wsadowy bez oceny przepływu.

Najpierw zostanie wyświetlona prośba o podanie wsadowej nazwy opisowej i rozpoznawalnej. Możesz również napisać opis i dodać tagi (pary klucz-wartość) do przebiegu wsadowego. Po zakończeniu konfiguracji wybierz przycisk Dalej , aby kontynuować.

Po drugie musisz wybrać lub przekazać zestaw danych, za pomocą którego chcesz przetestować przepływ. Musisz również wybrać dostępną sesję obliczeniową, aby wykonać to uruchomienie wsadowe.

Przepływ monitów obsługuje również mapowanie danych wejściowych przepływu na określoną kolumnę danych w zestawie danych. Oznacza to, że można przypisać kolumnę do określonych danych wejściowych. Kolumnę można przypisać do danych wejściowych, odwołując się do ${data.XXX} formatu. Jeśli chcesz przypisać stałą wartość do danych wejściowych, możesz bezpośrednio wpisać w tej wartości.

Następnie w następnym kroku możesz zdecydować się na użycie metody oceny w celu zweryfikowania wydajności tego przepływu. Możesz bezpośrednio wybrać przycisk Dalej , aby pominąć ten krok, jeśli nie chcesz stosować żadnej metody oceny ani obliczyć żadnych metryk. W przeciwnym razie, jeśli chcesz teraz uruchomić uruchamianie wsadowe z oceną, możesz wybrać jedną lub więcej metod oceny. Ocena rozpoczyna się po zakończeniu przebiegu wsadowego. Można również uruchomić kolejną rundę oceny po zakończeniu przebiegu wsadowego. Aby dowiedzieć się więcej na temat rozpoczynania nowej rundy oceny, zobacz Rozpoczynanie nowej rundy oceny.

W następnej sekcji mapowania danych wejściowych należy określić źródła danych wejściowych, które są wymagane dla metody oceny. Na przykład kolumna podstawowej prawdy może pochodzić z zestawu danych. Domyślnie ocena używa tego samego zestawu danych co zestaw danych testowych dostarczonych do przetestowanego przebiegu. Jeśli jednak odpowiednie etykiety lub docelowe wartości prawdy podstawowej znajdują się w innym zestawie danych, możesz łatwo przełączyć się na ten zestaw danych.

Jeśli źródło danych pochodzi z danych wyjściowych przebiegu, źródło jest wskazywane jako ${run.output.[ OutputName]}
Jeśli źródło danych pochodzi z testowego zestawu danych, źródło jest wskazywane jako ${data.[ Nazwakolumny]}

Uwaga

Jeśli ocena nie wymaga danych z zestawu danych, nie musisz odwoływać się do żadnych kolumn zestawu danych w sekcji mapowania danych wejściowych, co wskazuje, że wybór zestawu danych jest opcjonalną konfiguracją. Wybór zestawu danych nie wpłynie na wynik oceny.

Jeśli metoda oceny używa dużych modeli językowych (LLMs) do mierzenia wydajności odpowiedzi przepływu, należy również ustawić połączenia dla węzłów LLM w metodach oceny.

Następnie możesz wybrać przycisk Dalej , aby przejrzeć ustawienia i wybrać pozycję Prześlij , aby rozpocząć uruchamianie wsadowe z oceną.

Wyświetlanie wyników i metryk oceny

Po przesłaniu możesz znaleźć przesłane uruchomienie wsadowe na karcie listy uruchomień na stronie przepływu monitu. Wybierz przebieg, aby przejść do strony wyników przebiegu.

Na stronie szczegółów przebiegu możesz wybrać pozycję Szczegóły , aby sprawdzić szczegóły tego przebiegu wsadowego.

Wyjście

Podstawowy wynik i ślad

Spowoduje to najpierw przekierowanie do karty Dane wyjściowe, aby wyświetlić dane wejściowe i wyjściowe wiersz według wiersza. Na stronie karty danych wyjściowych zostanie wyświetlona lista wyników, w tym identyfikator wiersza, dane wejściowe, dane wyjściowe, stan, metryki systemowe i czas utworzenia.

Dla każdego wiersza wybranie pozycji Wyświetl ślad umożliwia obserwowanie i debugowanie tego konkretnego przypadku testowego na swojej szczegółowej stronie śledzenia.

Dołącz wynik oceny i ślad

Wybranie pozycji Dołącz dane wyjściowe oceny umożliwia wybranie powiązanych przebiegów oceny i wyświetlenie dołączonych kolumn na końcu tabeli zawierającej wynik oceny dla każdego wiersza danych. Do porównania można dołączyć wiele danych wyjściowych oceny.

Najnowsze metryki oceny można wyświetlić w lewym panelu Przegląd.

Podstawowe omówienie

Po prawej stronie przegląd zawiera ogólne informacje o przebiegu, takie jak liczba wykonań punktu danych, łączna liczba tokenów i czas trwania przebiegu.

Najnowsze zagregowane metryki przebiegu oceny są domyślnie wyświetlane w tym miejscu. Możesz wybrać pozycję Wyświetl przebieg oceny, aby przejść, aby wyświetlić sam przebieg oceny.

Przegląd można rozwinąć i zwinąć tutaj, a następnie wybrać pozycję Wyświetl pełne informacje, które przekierowują Cię do karty Przegląd obok karty Dane wyjściowe, gdzie zawiera bardziej szczegółowe informacje o tym przebiegu.

Rozpocznij nową rundę oceny

Jeśli przebieg wsadowy został już ukończony, możesz rozpocząć kolejną rundę oceny, aby przesłać nowy przebieg oceny, aby obliczyć metryki dla danych wyjściowych bez ponownego uruchamiania przepływu. Jest to przydatne i może obniżyć koszty ponownego uruchamiania przepływu, gdy:

Nie wybrano metody ewaluacyjnej, aby obliczyć metryki podczas przesyłania przebiegu wsadowego i zdecydować się na to teraz.
Użyto już metody oceny do obliczenia metryki. Możesz rozpocząć kolejną rundę oceny, aby obliczyć inną metryki.
Przebieg oceny zakończył się niepowodzeniem, ale przepływ pomyślnie wygenerował dane wyjściowe. Możesz ponownie przesłać ocenę.

Możesz przejść do karty Przebiegi przepływu monitu. Następnie przejdź do strony szczegółów przebiegu wsadowego i wybierz pozycję Oceń, aby rozpocząć kolejną rundę oceny.

Po skonfigurowaniu konfiguracji możesz wybrać pozycję "Prześlij" dla tej nowej rundy oceny. Po przesłaniu będzie można wyświetlić nowy rekord na liście przebiegów przepływu monitu. Po zakończeniu przebiegu oceny możesz również sprawdzić wynik oceny na karcie "Dane wyjściowe" panelu szczegółów przebiegu wsadowego. Musisz wybrać nowy przebieg oceny, aby wyświetlić jego wynik.

Aby dowiedzieć się więcej o metrykach obliczanych za pomocą wbudowanych metod oceny, przejdź do informacji na temat wbudowanych metod oceny.

Omówienie

Wybranie karty Przegląd zawiera kompleksowe informacje o przebiegu, w tym właściwości przebiegu, wejściowy zestaw danych, wyjściowy zestaw danych, tagi i opis.

Dzienniki

Wybranie karty Dzienniki umożliwia wyświetlenie dzienników uruchamiania, co może być przydatne w przypadku szczegółowego debugowania błędów wykonywania. Możesz pobrać pliki dziennika na komputer lokalny.

Snapshot

Wybranie karty Migawka spowoduje wyświetlenie migawki przebiegu. Możesz wyświetlić grupę DAG przepływu. Ponadto możesz sklonować go, aby utworzyć nowy przepływ. Możesz również wdrożyć go jako punkt końcowy online.

Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk

W niektórych scenariuszach zmodyfikujesz przepływ, aby poprawić jego wydajność. Możesz przesłać więcej niż jedno uruchomienie wsadowe, aby porównać wydajność przepływu z różnymi wersjami. Możesz również porównać metryki obliczane za pomocą różnych metod oceny, aby zobaczyć, która z nich jest bardziej odpowiednia dla przepływu.

Aby sprawdzić historię przebiegów wsadowych przepływu, możesz wybrać przycisk Wyświetl uruchamianie wsadowe na stronie przepływu. Zostanie wyświetlona lista przebiegów wsadowych przesłanych dla tego przepływu.

Możesz wybrać poszczególne uruchomienia wsadowe, aby sprawdzić szczegóły. Możesz również wybrać wiele przebiegów wsadowych i wybrać pozycję Visualize outputs (Wizualizacja danych wyjściowych), aby porównać metryki i dane wyjściowe przebiegów wsadowych .

W panelu "Wizualizacja danych wyjściowych" tabela Uruchomienia i metryki zawiera informacje o wybranych przebiegach z wyróżnieniem. Inne uruchomienia, które pobierają dane wyjściowe wybranych przebiegów jako dane wejściowe, są również wyświetlane.

W tabeli "Dane wyjściowe" można porównać wybrane uruchomienia wsadowe według każdego wiersza przykładu. Po wybraniu ikony wizualizacji oka w tabeli "Uruchomienia i metryki" dane wyjściowe tego przebiegu zostaną dołączone do odpowiedniego przebiegu podstawowego.

Omówienie wbudowanych metod oceny

W przepływie monitów udostępniamy wiele wbudowanych metod oceny, które ułatwiają mierzenie wydajności danych wyjściowych przepływu. Każda metoda oceny oblicza różne metryki. Poniższa tabela zawiera listę wbudowanych metod oceny i ich opisów.

Metoda oceny	Mierniki	opis	Wymagane połączenie	Wymagane dane wejściowe	Wartość wyniku
Ocena dokładności klasyfikacji	Dokładność	Mierzy wydajność systemu klasyfikacji, porównując swoje dane wyjściowe z prawdą prawną.	Nie.	przewidywanie, prawda naziemna	w zakresie [0, 1].
Ocena zgodności pytań i odpowiedzi na podstawie parowania	Wynik, wygrana/przegrana	Ocenia jakość odpowiedzi wygenerowanych przez system odpowiedzi na pytania. Obejmuje przypisywanie wyników istotności do każdej odpowiedzi na podstawie tego, jak dobrze pasuje do pytania użytkownika, porównywania różnych odpowiedzi z odpowiedzią odniesienia i agregowania wyników w celu generowania metryk, takich jak średnie współczynniki wygranych i wyniki istotności.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	Wynik: 0-100, wygrana/przegrana: 1/0
Ocena podstaw pytań i odpowiedzi	Uziemienie	Mierzy sposób uziemienia przewidywanych odpowiedzi modelu w źródle wejściowym. Nawet jeśli odpowiedzi llM są prawdziwe, jeśli nie można zweryfikować względem źródła, to nie jest nieprzystawiony.	Tak	pytanie, odpowiedź, kontekst (bez prawdy podstawowej)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena podobieństwa QnA GPT	Podobieństwo GPT	Mierzy podobieństwo między odpowiedziami podstaw dostarczonymi przez użytkownika a modelem przewidywanym odpowiedzią przy użyciu modelu GPT.	Tak	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	w zakresie [0, 1].
Ocena istotności pytań i oceny	Stopień zgodności	Mierzy, jak istotne są przewidywane odpowiedzi modelu na zadawane pytania.	Tak	pytanie, odpowiedź, kontekst (bez prawdy podstawowej)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena spójności usługi QnA	Spójności	Mierzy jakość wszystkich zdań w przewidywanej odpowiedzi modelu i sposób ich dopasowania naturalnie.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena fluency QnA	Płynność	Mierzy sposób gramatycznego i językowego poprawiania przewidywanej odpowiedzi modelu.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy
Ocena wyników QnA f1	Wynik F1	Mierzy stosunek liczby wspólnych słów między przewidywaniem modelu a prawem podstawy.	Nie.	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	w zakresie [0, 1].
Ocena podobieństwa QnA Ada	Podobieństwo Ada	Osadzanie na poziomie zdania obliczeniowego (dokumentu) przy użyciu interfejsu API osadzania Ada na potrzeby zarówno prawdy podstawowej, jak i przewidywania. Następnie oblicza podobieństwo cosinusu między nimi (jedna liczba zmiennoprzecinkowa)	Tak	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	w zakresie [0, 1].

Sposoby poprawy wydajności przepływu

Po sprawdzeniu wbudowanych metod z oceny możesz spróbować poprawić wydajność przepływu, wykonując następujące czynności:

Sprawdź dane wyjściowe, aby debugować wszelkie potencjalne błędy przepływu.
Zmodyfikuj przepływ, aby poprawić jego wydajność. Obejmuje to, ale nie tylko:
- Modyfikowanie monitu
- Modyfikowanie komunikatu systemowego
- Modyfikowanie parametrów przepływu
- Modyfikowanie logiki przepływu

Aby dowiedzieć się więcej na temat tworzenia monitu, który może osiągnąć twój cel, zobacz Wprowadzenie do monitowania o inżynierię, techniki inżynieryjne monitowania oraz struktura komunikatów systemowych i zalecenia dotyczące szablonów dla dużych modeli językowych (LLMs).

W tym dokumencie przedstawiono sposób przesyłania przebiegu wsadowego i używania wbudowanej metody ewaluacyjnej do mierzenia jakości danych wyjściowych przepływu. Pokazano również, jak wyświetlić wynik i metryki oceny oraz jak rozpocząć nową rundę oceny przy użyciu innej metody lub podzestawu wariantów. Mamy nadzieję, że ten dokument pomoże Ci poprawić wydajność przepływu i osiągnąć cele dzięki przepływowi monitów.

Udostępnij za pośrednictwem