Jak oceniać generowanie modeli i aplikacji sztucznej inteligencji za pomocą rozwiązania Azure AI Foundry
Aby dokładnie ocenić wydajność generowania modeli i aplikacji sztucznej inteligencji w przypadku zastosowania do istotnego zestawu danych, możesz zainicjować proces oceny. Podczas tej oceny model lub aplikacja jest testowana przy użyciu danego zestawu danych, a jego wydajność będzie mierzona ilościowo przy użyciu zarówno metryk matematycznych, jak i metryk wspomaganych przez sztuczną inteligencję. Ten przebieg oceny zapewnia kompleksowy wgląd w możliwości i ograniczenia aplikacji.
Aby przeprowadzić tę ocenę, możesz użyć funkcji oceny w portalu Azure AI Foundry, kompleksowej platformy, która oferuje narzędzia i funkcje do oceny wydajności i bezpieczeństwa generowanego modelu sztucznej inteligencji. W portalu usługi Azure AI Foundry możesz rejestrować, wyświetlać i analizować szczegółowe metryki oceny.
Z tego artykułu dowiesz się, jak utworzyć przebieg oceny dla modelu, zestawu danych testowych lub przepływu z wbudowanymi metrykami oceny z interfejsu użytkownika usługi Azure AI Foundry. Aby uzyskać większą elastyczność, można ustanowić niestandardowy przepływ oceny i stosować funkcję oceny niestandardowej. Alternatywnie, jeśli twoim celem jest wyłącznie przeprowadzenie przebiegu wsadowego bez żadnej oceny, możesz również użyć funkcji oceny niestandardowej.
Wymagania wstępne
Aby uruchomić ocenę za pomocą metryk wspomaganych przez sztuczną inteligencję, należy przygotować następujące elementy:
- Testowy zestaw danych w jednym z następujących formatów:
csv
lubjsonl
. - Połączenie usługi Azure OpenAI. Wdrożenie jednego z następujących modeli: modele GPT 3.5, modele GPT 4 lub Modele Davinci. Wymagane tylko w przypadku uruchamiania oceny jakości wspomaganej przez sztuczną inteligencję.
Tworzenie oceny za pomocą wbudowanych metryk oceny
Przebieg oceny umożliwia generowanie danych wyjściowych metryk dla każdego wiersza danych w zestawie danych testowych. Możesz wybrać co najmniej jedną metrykę oceny, aby ocenić dane wyjściowe z różnych aspektów. Możesz utworzyć przebieg oceny na podstawie stron oceny, wykazu modeli lub przepływu monitów w portalu usługi Azure AI Foundry. Następnie zostanie wyświetlony kreator tworzenia oceny, który przeprowadzi Cię przez proces konfigurowania przebiegu oceny.
Na stronie oceny
Z zwijanego menu po lewej stronie wybierz pozycję Ocena>+ Utwórz nową ocenę.
Na stronie wykazu modeli
Z zwijanego menu po lewej stronie wybierz pozycję Katalog> modeli, przejdź do konkretnej > karty > testu porównawczego Wypróbuj własne dane. Spowoduje to otwarcie panelu oceny modelu w celu utworzenia przebiegu oceny dla wybranego modelu.
Na stronie przepływu
Z zwijanego menu po lewej stronie wybierz pozycję Monituj przepływ>Oceń>automatyczną ocenę.
Docelowy element docelowy oceny
Po rozpoczęciu oceny na stronie oceny należy najpierw zdecydować, jaki jest cel oceny. Określając odpowiedni cel oceny, możemy dostosować ocenę do określonego charakteru aplikacji, zapewniając dokładne i odpowiednie metryki. Obsługujemy trzy typy celów oceny:
- Model i monit: chcesz ocenić dane wyjściowe wygenerowane przez wybrany model i monit zdefiniowany przez użytkownika.
- Zestaw danych: masz już wygenerowane dane wyjściowe modelu w zestawie danych testowych.
- Przepływ monitu: utworzono przepływ i chcesz ocenić dane wyjściowe z przepływu.
Ocena przepływu zestawu danych lub monitu
Po wprowadzeniu kreatora tworzenia oceny możesz podać opcjonalną nazwę przebiegu oceny. Obecnie oferujemy obsługę scenariusza zapytań i odpowiedzi, który jest przeznaczony dla aplikacji obejmujących odpowiadanie na zapytania użytkowników i dostarczanie odpowiedzi z informacjami kontekstowymi lub bez nich.
Opcjonalnie można dodawać opisy i tagi do przebiegów oceny w celu ulepszenia organizacji, kontekstu i łatwości pobierania.
Możesz również użyć panelu pomocy, aby sprawdzić często zadawane pytania i samodzielnie zapoznać się z kreatorem.
Jeśli oceniasz przepływ monitu, możesz wybrać przepływ do oceny. Jeśli zainicjujesz ocenę na stronie Flow, automatycznie wybierzemy przepływ do oceny. Jeśli zamierzasz ocenić inny przepływ, możesz wybrać inny przepływ. Należy pamiętać, że w ramach przepływu może istnieć wiele węzłów, z których każdy może mieć własny zestaw wariantów. W takich przypadkach należy określić węzeł i warianty, które chcesz ocenić podczas procesu oceny.
Konfigurowanie danych testowych
Możesz wybrać spośród wstępnie istniejących zestawów danych lub przekazać nowy zestaw danych specjalnie do oceny. Zestaw danych testowych musi mieć wygenerowane przez model dane wyjściowe, które mają być używane do oceny, jeśli w poprzednim kroku nie wybrano żadnego przepływu.
Wybierz istniejący zestaw danych: możesz wybrać zestaw danych testowych z utworzonej kolekcji zestawów danych.
Dodaj nowy zestaw danych: możesz przekazać pliki z magazynu lokalnego. Obsługujemy
.csv
tylko formaty plików i.jsonl
.Mapowanie danych dla przepływu: jeśli wybierzesz przepływ do oceny, upewnij się, że kolumny danych są skonfigurowane tak, aby były zgodne z wymaganymi danymi wejściowymi dla przepływu w celu wykonania przebiegu wsadowego, generując dane wyjściowe do oceny. Następnie zostanie przeprowadzona ocena przy użyciu danych wyjściowych z przepływu. Następnie skonfiguruj mapowanie danych dla danych wejściowych oceny w następnym kroku.
Wybieranie metryk
Firma Microsoft obsługuje trzy typy metryk wyselekcjonowanych przez firmę Microsoft, aby ułatwić kompleksową ocenę aplikacji:
- Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja): te metryki oceniają ogólną jakość i spójność wygenerowanej zawartości. Aby uruchomić te metryki, wymaga wdrożenia modelu jako sędziego.
- Jakość sztucznej inteligencji (NLP): te metryki NLP są oparte matematycznie, a także oceniają ogólną jakość wygenerowanej zawartości. Często wymagają one podstawowych danych prawdy, ale nie wymagają wdrożenia modelu jako sędziego.
- Metryki ryzyka i bezpieczeństwa: te metryki koncentrują się na identyfikowaniu potencjalnych zagrożeń związanych z zawartością i zapewnianiu bezpieczeństwa wygenerowanej zawartości.
Możesz zapoznać się z tabelą zawierającą pełną listę metryk, dla których oferujemy pomoc techniczną w każdym scenariuszu. Aby uzyskać bardziej szczegółowe informacje na temat każdej definicji metryki i sposobu jej obliczania, zobacz Metryki oceny i monitorowania.
Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja) | Jakość sztucznej inteligencji (NLP) | Metryki ryzyka i bezpieczeństwa |
---|---|---|
Uziemienie, istotność, spójność, płynność, podobieństwo GPT | Wynik F1, ROUGE, wynik, wynik BLEU, wynik GLEU, wynik METEOR | Zawartość związana z samookaleczeniami, nienawistna i nieuczciwa zawartość, zawartość brutalna, zawartość seksualna, materiały chronione, atak pośredni |
Podczas uruchamiania oceny jakości wspomaganej sztucznej inteligencji należy określić model GPT dla procesu obliczania. Wybierz połączenie Azure OpenAI i wdrożenie z modelem GPT-3.5, GPT-4 lub Davinci dla naszych obliczeń.
Metryki jakości sztucznej inteligencji (NLP) są matematycznie oparte na pomiarach, które oceniają wydajność aplikacji. Często wymagają one podstawowych danych prawdy na potrzeby obliczeń. ROUGE to rodzina metryk. Możesz wybrać typ ROUGE, aby obliczyć wyniki. Różne typy metryk ROUGE oferują sposoby oceny jakości generowania tekstu. ROUGE-N mierzy nakładanie się n-gramów między kandydatem a tekstami referencyjnymi.
W przypadku metryk ryzyka i bezpieczeństwa nie trzeba dostarczać połączenia i wdrażania. Usługa zaplecza oceny bezpieczeństwa portalu usługi Azure AI Foundry aprowizuje model GPT-4, który może generować oceny ważności ryzyka zawartości i rozumowanie, aby umożliwić ocenę aplikacji pod kątem szkód związanych z zawartością.
Możesz ustawić próg, aby obliczyć współczynnik wad dla metryk szkód związanych z zawartością (zawartość związana z samookaleczeniem, nienawistna i niesprawiedliwa zawartość, zawartość brutalna, zawartość seksualna). Współczynnik wad jest obliczany przez użycie procentu wystąpień z poziomami ważności (bardzo niski, niski, średni, wysoki) powyżej progu. Domyślnie ustawiamy próg jako "Średni".
W przypadku chronionego materiału i ataku pośredniego współczynnik wad jest obliczany przez użycie procentu wystąpień, w których dane wyjściowe mają wartość "true" (współczynnik wad = (#trues / #instances) × 100).
Uwaga
Metryki ryzyka i bezpieczeństwa wspomagane przez sztuczną inteligencję są hostowane przez usługę zaplecza oceny bezpieczeństwa usługi Azure AI Foundry i są dostępne tylko w następujących regionach: Wschodnie stany USA 2, Francja Środkowa, Południowe Zjednoczone Królestwo, Szwecja Środkowa
Mapowanie danych na potrzeby oceny: musisz określić, które kolumny danych w zestawie danych odpowiadają danym wejściowym wymaganym w ocenie. Różne metryki oceny wymagają odrębnych typów danych wejściowych na potrzeby dokładnych obliczeń.
Uwaga
Jeśli oceniasz dane, wyrażenie "odpowiedź" powinno zostać zamapowane na kolumnę odpowiedzi w zestawie danych ${data$response}
. Jeśli oceniasz z przepływu, "odpowiedź" powinna pochodzić z danych wyjściowych ${run.outputs.response}
przepływu .
Aby uzyskać wskazówki dotyczące konkretnych wymagań dotyczących mapowania danych dla każdej metryki, zapoznaj się z informacjami podanymi w tabeli:
Wymagania dotyczące metryk zapytań i odpowiedzi
Metric | Query | Response | Kontekst | Prawda naziemna |
---|---|---|---|---|
Uziemienie | Wymagane: str | Wymagane: str | Wymagane: str | Nie dotyczy |
Spójności | Wymagane: str | Wymagane: str | Brak | Brak |
Płynność | Wymagane: str | Wymagane: str | Brak | Brak |
Stopień zgodności | Wymagane: str | Wymagane: str | Wymagane: str | Nie dotyczy |
Podobieństwo GPT | Wymagane: str | Wymagane: str | Nie dotyczy | Wymagane: str |
Wynik F1 | Nie dotyczy | Wymagane: str | Nie dotyczy | Wymagane: str |
Wynik BLEU | Nie dotyczy | Wymagane: str | Nie dotyczy | Wymagane: str |
Wynik GLEU | Nie dotyczy | Wymagane: str | Nie dotyczy | Wymagane: str |
Wynik METEOR | Nie dotyczy | Wymagane: str | Nie dotyczy | Wymagane: str |
Wynik ROUGE | Nie dotyczy | Wymagane: str | Nie dotyczy | Wymagane: str |
Zawartość związana z samookaleczeniami | Wymagane: str | Wymagane: str | Brak | Brak |
Nienawistne i niesprawiedliwe treści | Wymagane: str | Wymagane: str | Brak | Brak |
Brutalna zawartość | Wymagane: str | Wymagane: str | Brak | Brak |
Zawartość seksualna | Wymagane: str | Wymagane: str | Brak | Brak |
Materiał chroniony | Wymagane: str | Wymagane: str | Brak | Brak |
Atak pośredni | Wymagane: str | Wymagane: str | Brak | Brak |
- Zapytanie: zapytanie wyszukuje określone informacje.
- Odpowiedź: odpowiedź na zapytanie wygenerowane przez model.
- Kontekst: źródło, które odpowiedź jest generowana w odniesieniu do (czyli dokumentów uziemionych)...
- Prawda podstawowe: odpowiedź na zapytanie wygenerowane przez użytkownika/człowieka jako prawdziwą odpowiedź.
Przejrzyj i zakończ
Po zakończeniu wszystkich niezbędnych konfiguracji możesz przejrzeć i przejść do wybrania pozycji "Prześlij", aby przesłać przebieg oceny.
Modelowanie i ocena monitu
Aby utworzyć nową ocenę dla wybranego wdrożenia modelu i zdefiniowany monit, użyj uproszczonego panelu oceny modelu. Ten usprawniony interfejs umożliwia konfigurowanie i inicjowanie ocen w jednym, skonsolidowanym panelu.
Informacje podstawowe
Aby rozpocząć, możesz skonfigurować nazwę przebiegu oceny. Następnie wybierz wdrożenie modelu, które chcesz ocenić. Obsługujemy zarówno modele Azure OpenAI, jak i inne otwarte modele zgodne z modelem jako usługa (MaaS), takimi jak Meta Llama i Modele rodziny Phi-3. Opcjonalnie możesz dostosować parametry modelu, takie jak maksymalna odpowiedź, temperatura i top P w zależności od potrzeb.
W polu tekstowym Komunikat systemowy podaj monit o scenariusz. Aby uzyskać więcej informacji na temat tworzenia monitu, zobacz katalog monitów. Możesz dodać przykład, aby pokazać czat, jakie odpowiedzi chcesz poznać. Spróbuje naśladować wszystkie dodane tutaj odpowiedzi, aby upewnić się, że są one zgodne z regułami określonymi w komunikacie systemowym.
Konfigurowanie danych testowych
Po skonfigurowaniu modelu i monitu skonfiguruj testowy zestaw danych, który będzie używany do oceny. Ten zestaw danych zostanie wysłany do modelu w celu wygenerowania odpowiedzi na potrzeby oceny. Dostępne są trzy opcje konfigurowania danych testowych:
- Generowanie danych przykładowych
- Korzystanie z istniejącego zestawu danych
- Dodawanie zestawu danych
Jeśli nie masz łatwo dostępnego zestawu danych i chcesz uruchomić ocenę z niewielką próbką, możesz wybrać opcję użycia modelu GPT do generowania przykładowych pytań na podstawie wybranego tematu. Temat ułatwia dostosowanie wygenerowanej zawartości do danego obszaru zainteresowania. Zapytania i odpowiedzi będą generowane w czasie rzeczywistym i masz możliwość ponownego wygenerowania ich w razie potrzeby.
Uwaga
Wygenerowany zestaw danych zostanie zapisany w magazynie obiektów blob projektu po utworzeniu przebiegu oceny.
Mapowanie danych
Jeśli zdecydujesz się użyć istniejącego zestawu danych lub przekazać nowy zestaw danych, musisz zamapować kolumny zestawu danych na wymagane pola do oceny. Podczas oceny odpowiedź modelu zostanie oceniona pod kątem kluczowych danych wejściowych, takich jak:
- Zapytanie: wymagane dla wszystkich metryk
- Kontekst: opcjonalny
- Podstawy prawdy: opcjonalne, wymagane dla metryk jakości sztucznej inteligencji (NLP)
Te mapowania zapewniają dokładne dopasowanie danych do kryteriów oceny.
Wybieranie metryk oceny
Ostatnim krokiem jest wybranie, co chcesz ocenić. Zamiast wybierać poszczególne metryki i zapoznać się ze wszystkimi dostępnymi opcjami, upraszczamy proces, umożliwiając wybranie kategorii metryk, które najlepiej spełniają Twoje potrzeby. Po wybraniu kategorii wszystkie odpowiednie metryki w tej kategorii będą obliczane na podstawie kolumn danych podanych w poprzednim kroku. Po wybraniu kategorii metryk możesz wybrać pozycję "Utwórz", aby przesłać przebieg oceny i przejść do strony oceny, aby wyświetlić wyniki.
Obsługujemy trzy kategorie:
- Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja): musisz podać wdrożenie modelu usługi Azure OpenAI jako sędziego, aby obliczyć metryki wspomagane przez sztuczną inteligencję.
- Jakość sztucznej inteligencji (NLP)
- Bezpieczeństwo
Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja) | Jakość sztucznej inteligencji (NLP) | Bezpieczeństwo |
---|---|---|
Uziemienie (wymaganie kontekstu), istotność (wymaga kontekstu), spójność, płynność | Wynik F1, ROUGE, wynik, wynik BLEU, wynik GLEU, wynik METEOR | Zawartość związana z samookaleczeniami, nienawistna i nieuczciwa zawartość, zawartość brutalna, zawartość seksualna, materiały chronione, atak pośredni |
Tworzenie oceny przy użyciu niestandardowego przepływu oceny
Możesz opracować własne metody oceny:
Na stronie przepływu: z zwijanego menu po lewej stronie wybierz pozycję Monituj przepływ>Oceń>ocenę niestandardową.
Wyświetlanie ewaluatorów i zarządzanie nimi w bibliotece ewaluatorów
Biblioteka ewaluatora to scentralizowane miejsce, które umożliwia wyświetlanie szczegółów i stanu ewaluatorów. Możesz wyświetlać ewaluatorów wyselekcjonowanych przez firmę Microsoft i zarządzać nimi.
Napiwek
Możesz użyć niestandardowych ewaluatorów za pośrednictwem zestawu SDK przepływu monitów. Aby uzyskać więcej informacji, zobacz Evaluate with the prompt flow SDK (Ocena za pomocą zestawu SDK przepływu monitu).
Biblioteka ewaluatora umożliwia również zarządzanie wersjami. W razie potrzeby możesz porównać różne wersje pracy, przywrócić poprzednie wersje i łatwiej współpracować z innymi osobami.
Aby użyć biblioteki ewaluatora w portalu Azure AI Foundry, przejdź do strony Ocena projektu i wybierz kartę Biblioteka ewaluatora.
Możesz wybrać nazwę ewaluatora, aby wyświetlić więcej szczegółów. Możesz zobaczyć nazwę, opis i parametry oraz sprawdzić wszystkie pliki skojarzone z ewaluatorem. Oto kilka przykładów ewaluatorów wyselekcjonowanych przez firmę Microsoft:
- W przypadku ewaluatorów wydajności i jakości wyselekcjonowanych przez firmę Microsoft możesz wyświetlić monit adnotacji na stronie szczegółów. Te monity można dostosować do własnego przypadku użycia, zmieniając parametry lub kryteria zgodnie z danymi i celami zestawu AZURE AI Evaluation SDK. Możesz na przykład wybrać pozycję Groundedness-Evaluator i sprawdzić plik Prompty pokazujący sposób obliczania metryki.
- W przypadku ewaluatorów ryzyka i bezpieczeństwa wyselekcjonowanych przez firmę Microsoft można zobaczyć definicję metryk. Możesz na przykład wybrać narzędzie Self-Harm-Related-Content-Evaluator i dowiedzieć się, co to znaczy i jak firma Microsoft określa różne poziomy ważności dla tej metryki bezpieczeństwa.
Następne kroki
Dowiedz się więcej na temat oceniania generowanych aplikacji sztucznej inteligencji:
- Ocena generowanych aplikacji sztucznej inteligencji za pośrednictwem placu zabaw
- Wyświetlanie wyników oceny
- Dowiedz się więcej o technikach ograniczania szkód.
- Uwaga dotycząca przejrzystości dla ocen bezpieczeństwa rozwiązania Azure AI Foundry.