Udostępnij za pośrednictwem


Jak oceniać generowanie modeli i aplikacji sztucznej inteligencji za pomocą rozwiązania Azure AI Foundry

Aby dokładnie ocenić wydajność generowania modeli i aplikacji sztucznej inteligencji w przypadku zastosowania do istotnego zestawu danych, możesz zainicjować proces oceny. Podczas tej oceny model lub aplikacja jest testowana przy użyciu danego zestawu danych, a jego wydajność będzie mierzona ilościowo przy użyciu zarówno metryk matematycznych, jak i metryk wspomaganych przez sztuczną inteligencję. Ten przebieg oceny zapewnia kompleksowy wgląd w możliwości i ograniczenia aplikacji.

Aby przeprowadzić tę ocenę, możesz użyć funkcji oceny w portalu Azure AI Foundry, kompleksowej platformy, która oferuje narzędzia i funkcje do oceny wydajności i bezpieczeństwa generowanego modelu sztucznej inteligencji. W portalu usługi Azure AI Foundry możesz rejestrować, wyświetlać i analizować szczegółowe metryki oceny.

Z tego artykułu dowiesz się, jak utworzyć przebieg oceny dla modelu, zestawu danych testowych lub przepływu z wbudowanymi metrykami oceny z interfejsu użytkownika usługi Azure AI Foundry. Aby uzyskać większą elastyczność, można ustanowić niestandardowy przepływ oceny i stosować funkcję oceny niestandardowej. Alternatywnie, jeśli twoim celem jest wyłącznie przeprowadzenie przebiegu wsadowego bez żadnej oceny, możesz również użyć funkcji oceny niestandardowej.

Wymagania wstępne

Aby uruchomić ocenę za pomocą metryk wspomaganych przez sztuczną inteligencję, należy przygotować następujące elementy:

  • Testowy zestaw danych w jednym z następujących formatów: csv lub jsonl.
  • Połączenie usługi Azure OpenAI. Wdrożenie jednego z następujących modeli: modele GPT 3.5, modele GPT 4 lub Modele Davinci. Wymagane tylko w przypadku uruchamiania oceny jakości wspomaganej przez sztuczną inteligencję.

Tworzenie oceny za pomocą wbudowanych metryk oceny

Przebieg oceny umożliwia generowanie danych wyjściowych metryk dla każdego wiersza danych w zestawie danych testowych. Możesz wybrać co najmniej jedną metrykę oceny, aby ocenić dane wyjściowe z różnych aspektów. Możesz utworzyć przebieg oceny na podstawie stron oceny, wykazu modeli lub przepływu monitów w portalu usługi Azure AI Foundry. Następnie zostanie wyświetlony kreator tworzenia oceny, który przeprowadzi Cię przez proces konfigurowania przebiegu oceny.

Na stronie oceny

Z zwijanego menu po lewej stronie wybierz pozycję Ocena>+ Utwórz nową ocenę.

Zrzut ekranu przedstawiający przycisk umożliwiający utworzenie nowej oceny.

Na stronie wykazu modeli

Z zwijanego menu po lewej stronie wybierz pozycję Katalog> modeli, przejdź do konkretnej > karty > testu porównawczego Wypróbuj własne dane. Spowoduje to otwarcie panelu oceny modelu w celu utworzenia przebiegu oceny dla wybranego modelu.

Zrzut ekranu przedstawiający przycisk Wypróbuj przy użyciu własnych danych ze strony wykazu modeli.

Na stronie przepływu

Z zwijanego menu po lewej stronie wybierz pozycję Monituj przepływ>Oceń>automatyczną ocenę.

Zrzut ekranu przedstawiający sposób wybierania wartości ewaluacyjnej wbudowanej.

Docelowy element docelowy oceny

Po rozpoczęciu oceny na stronie oceny należy najpierw zdecydować, jaki jest cel oceny. Określając odpowiedni cel oceny, możemy dostosować ocenę do określonego charakteru aplikacji, zapewniając dokładne i odpowiednie metryki. Obsługujemy trzy typy celów oceny:

  • Model i monit: chcesz ocenić dane wyjściowe wygenerowane przez wybrany model i monit zdefiniowany przez użytkownika.
  • Zestaw danych: masz już wygenerowane dane wyjściowe modelu w zestawie danych testowych.
  • Przepływ monitu: utworzono przepływ i chcesz ocenić dane wyjściowe z przepływu.

Zrzut ekranu przedstawiający wybór miejsca docelowego oceny.

Ocena przepływu zestawu danych lub monitu

Po wprowadzeniu kreatora tworzenia oceny możesz podać opcjonalną nazwę przebiegu oceny. Obecnie oferujemy obsługę scenariusza zapytań i odpowiedzi, który jest przeznaczony dla aplikacji obejmujących odpowiadanie na zapytania użytkowników i dostarczanie odpowiedzi z informacjami kontekstowymi lub bez nich.

Opcjonalnie można dodawać opisy i tagi do przebiegów oceny w celu ulepszenia organizacji, kontekstu i łatwości pobierania.

Możesz również użyć panelu pomocy, aby sprawdzić często zadawane pytania i samodzielnie zapoznać się z kreatorem.

Zrzut ekranu przedstawiający stronę podstawowych informacji podczas tworzenia nowej oceny.

Jeśli oceniasz przepływ monitu, możesz wybrać przepływ do oceny. Jeśli zainicjujesz ocenę na stronie Flow, automatycznie wybierzemy przepływ do oceny. Jeśli zamierzasz ocenić inny przepływ, możesz wybrać inny przepływ. Należy pamiętać, że w ramach przepływu może istnieć wiele węzłów, z których każdy może mieć własny zestaw wariantów. W takich przypadkach należy określić węzeł i warianty, które chcesz ocenić podczas procesu oceny.

Zrzut ekranu przedstawiający wybieranie przepływu do oceny podczas tworzenia nowej oceny.

Konfigurowanie danych testowych

Możesz wybrać spośród wstępnie istniejących zestawów danych lub przekazać nowy zestaw danych specjalnie do oceny. Zestaw danych testowych musi mieć wygenerowane przez model dane wyjściowe, które mają być używane do oceny, jeśli w poprzednim kroku nie wybrano żadnego przepływu.

  • Wybierz istniejący zestaw danych: możesz wybrać zestaw danych testowych z utworzonej kolekcji zestawów danych.

    Zrzut ekranu przedstawiający opcję wyboru danych testowych podczas tworzenia nowej oceny.

  • Dodaj nowy zestaw danych: możesz przekazać pliki z magazynu lokalnego. Obsługujemy .csv tylko formaty plików i .jsonl .

    Zrzut ekranu przedstawiający opcję przekazywania pliku podczas tworzenia nowej oceny.

  • Mapowanie danych dla przepływu: jeśli wybierzesz przepływ do oceny, upewnij się, że kolumny danych są skonfigurowane tak, aby były zgodne z wymaganymi danymi wejściowymi dla przepływu w celu wykonania przebiegu wsadowego, generując dane wyjściowe do oceny. Następnie zostanie przeprowadzona ocena przy użyciu danych wyjściowych z przepływu. Następnie skonfiguruj mapowanie danych dla danych wejściowych oceny w następnym kroku.

    Zrzut ekranu przedstawiający mapowanie zestawu danych podczas tworzenia nowej oceny.

Wybieranie metryk

Firma Microsoft obsługuje trzy typy metryk wyselekcjonowanych przez firmę Microsoft, aby ułatwić kompleksową ocenę aplikacji:

  • Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja): te metryki oceniają ogólną jakość i spójność wygenerowanej zawartości. Aby uruchomić te metryki, wymaga wdrożenia modelu jako sędziego.
  • Jakość sztucznej inteligencji (NLP): te metryki NLP są oparte matematycznie, a także oceniają ogólną jakość wygenerowanej zawartości. Często wymagają one podstawowych danych prawdy, ale nie wymagają wdrożenia modelu jako sędziego.
  • Metryki ryzyka i bezpieczeństwa: te metryki koncentrują się na identyfikowaniu potencjalnych zagrożeń związanych z zawartością i zapewnianiu bezpieczeństwa wygenerowanej zawartości.

Zrzut ekranu przedstawiający wybraną pozycję Wybierz, którą chcesz ocenić przy użyciu jakości i bezpieczeństwa sztucznej inteligencji.

Możesz zapoznać się z tabelą zawierającą pełną listę metryk, dla których oferujemy pomoc techniczną w każdym scenariuszu. Aby uzyskać bardziej szczegółowe informacje na temat każdej definicji metryki i sposobu jej obliczania, zobacz Metryki oceny i monitorowania.

Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja) Jakość sztucznej inteligencji (NLP) Metryki ryzyka i bezpieczeństwa
Uziemienie, istotność, spójność, płynność, podobieństwo GPT Wynik F1, ROUGE, wynik, wynik BLEU, wynik GLEU, wynik METEOR Zawartość związana z samookaleczeniami, nienawistna i nieuczciwa zawartość, zawartość brutalna, zawartość seksualna, materiały chronione, atak pośredni

Podczas uruchamiania oceny jakości wspomaganej sztucznej inteligencji należy określić model GPT dla procesu obliczania. Wybierz połączenie Azure OpenAI i wdrożenie z modelem GPT-3.5, GPT-4 lub Davinci dla naszych obliczeń.

Zrzut ekranu przedstawiający jakość sztucznej inteligencji (wspomaganą sztuczną inteligencją) z podstawami, istotnością i metrykami spójności wybranymi podczas tworzenia nowej oceny.

Metryki jakości sztucznej inteligencji (NLP) są matematycznie oparte na pomiarach, które oceniają wydajność aplikacji. Często wymagają one podstawowych danych prawdy na potrzeby obliczeń. ROUGE to rodzina metryk. Możesz wybrać typ ROUGE, aby obliczyć wyniki. Różne typy metryk ROUGE oferują sposoby oceny jakości generowania tekstu. ROUGE-N mierzy nakładanie się n-gramów między kandydatem a tekstami referencyjnymi.

Zrzut ekranu przedstawiający jakość sztucznej inteligencji (NLP) z podstawami, istotnością i metrykami spójności wybranymi podczas tworzenia nowej oceny.

W przypadku metryk ryzyka i bezpieczeństwa nie trzeba dostarczać połączenia i wdrażania. Usługa zaplecza oceny bezpieczeństwa portalu usługi Azure AI Foundry aprowizuje model GPT-4, który może generować oceny ważności ryzyka zawartości i rozumowanie, aby umożliwić ocenę aplikacji pod kątem szkód związanych z zawartością.

Możesz ustawić próg, aby obliczyć współczynnik wad dla metryk szkód związanych z zawartością (zawartość związana z samookaleczeniem, nienawistna i niesprawiedliwa zawartość, zawartość brutalna, zawartość seksualna). Współczynnik wad jest obliczany przez użycie procentu wystąpień z poziomami ważności (bardzo niski, niski, średni, wysoki) powyżej progu. Domyślnie ustawiamy próg jako "Średni".

W przypadku chronionego materiału i ataku pośredniego współczynnik wad jest obliczany przez użycie procentu wystąpień, w których dane wyjściowe mają wartość "true" (współczynnik wad = (#trues / #instances) × 100).

Zrzut ekranu przedstawiający metryki ryzyka i bezpieczeństwa wyselekcjonowane przez firmę Microsoft z wybranymi opcjami samookaleczenia, materiałów chronionych i ataku pośredniego.

Uwaga

Metryki ryzyka i bezpieczeństwa wspomagane przez sztuczną inteligencję są hostowane przez usługę zaplecza oceny bezpieczeństwa usługi Azure AI Foundry i są dostępne tylko w następujących regionach: Wschodnie stany USA 2, Francja Środkowa, Południowe Zjednoczone Królestwo, Szwecja Środkowa

Mapowanie danych na potrzeby oceny: musisz określić, które kolumny danych w zestawie danych odpowiadają danym wejściowym wymaganym w ocenie. Różne metryki oceny wymagają odrębnych typów danych wejściowych na potrzeby dokładnych obliczeń.

Zrzut ekranu przedstawiający mapowanie zestawu danych na dane wejściowe oceny.

Uwaga

Jeśli oceniasz dane, wyrażenie "odpowiedź" powinno zostać zamapowane na kolumnę odpowiedzi w zestawie danych ${data$response}. Jeśli oceniasz z przepływu, "odpowiedź" powinna pochodzić z danych wyjściowych ${run.outputs.response}przepływu .

Aby uzyskać wskazówki dotyczące konkretnych wymagań dotyczących mapowania danych dla każdej metryki, zapoznaj się z informacjami podanymi w tabeli:

Wymagania dotyczące metryk zapytań i odpowiedzi
Metric Query Response Kontekst Prawda naziemna
Uziemienie Wymagane: str Wymagane: str Wymagane: str Nie dotyczy
Spójności Wymagane: str Wymagane: str Brak Brak
Płynność Wymagane: str Wymagane: str Brak Brak
Stopień zgodności Wymagane: str Wymagane: str Wymagane: str Nie dotyczy
Podobieństwo GPT Wymagane: str Wymagane: str Nie dotyczy Wymagane: str
Wynik F1 Nie dotyczy Wymagane: str Nie dotyczy Wymagane: str
Wynik BLEU Nie dotyczy Wymagane: str Nie dotyczy Wymagane: str
Wynik GLEU Nie dotyczy Wymagane: str Nie dotyczy Wymagane: str
Wynik METEOR Nie dotyczy Wymagane: str Nie dotyczy Wymagane: str
Wynik ROUGE Nie dotyczy Wymagane: str Nie dotyczy Wymagane: str
Zawartość związana z samookaleczeniami Wymagane: str Wymagane: str Brak Brak
Nienawistne i niesprawiedliwe treści Wymagane: str Wymagane: str Brak Brak
Brutalna zawartość Wymagane: str Wymagane: str Brak Brak
Zawartość seksualna Wymagane: str Wymagane: str Brak Brak
Materiał chroniony Wymagane: str Wymagane: str Brak Brak
Atak pośredni Wymagane: str Wymagane: str Brak Brak
  • Zapytanie: zapytanie wyszukuje określone informacje.
  • Odpowiedź: odpowiedź na zapytanie wygenerowane przez model.
  • Kontekst: źródło, które odpowiedź jest generowana w odniesieniu do (czyli dokumentów uziemionych)...
  • Prawda podstawowe: odpowiedź na zapytanie wygenerowane przez użytkownika/człowieka jako prawdziwą odpowiedź.

Przejrzyj i zakończ

Po zakończeniu wszystkich niezbędnych konfiguracji możesz przejrzeć i przejść do wybrania pozycji "Prześlij", aby przesłać przebieg oceny.

Zrzut ekranu przedstawiający stronę przeglądu i zakończenia, aby utworzyć nową ocenę.

Modelowanie i ocena monitu

Aby utworzyć nową ocenę dla wybranego wdrożenia modelu i zdefiniowany monit, użyj uproszczonego panelu oceny modelu. Ten usprawniony interfejs umożliwia konfigurowanie i inicjowanie ocen w jednym, skonsolidowanym panelu.

Informacje podstawowe

Aby rozpocząć, możesz skonfigurować nazwę przebiegu oceny. Następnie wybierz wdrożenie modelu, które chcesz ocenić. Obsługujemy zarówno modele Azure OpenAI, jak i inne otwarte modele zgodne z modelem jako usługa (MaaS), takimi jak Meta Llama i Modele rodziny Phi-3. Opcjonalnie możesz dostosować parametry modelu, takie jak maksymalna odpowiedź, temperatura i top P w zależności od potrzeb.

W polu tekstowym Komunikat systemowy podaj monit o scenariusz. Aby uzyskać więcej informacji na temat tworzenia monitu, zobacz katalog monitów. Możesz dodać przykład, aby pokazać czat, jakie odpowiedzi chcesz poznać. Spróbuje naśladować wszystkie dodane tutaj odpowiedzi, aby upewnić się, że są one zgodne z regułami określonymi w komunikacie systemowym.

Zrzut ekranu przedstawiający podstawowe informacje.

Konfigurowanie danych testowych

Po skonfigurowaniu modelu i monitu skonfiguruj testowy zestaw danych, który będzie używany do oceny. Ten zestaw danych zostanie wysłany do modelu w celu wygenerowania odpowiedzi na potrzeby oceny. Dostępne są trzy opcje konfigurowania danych testowych:

  • Generowanie danych przykładowych
  • Korzystanie z istniejącego zestawu danych
  • Dodawanie zestawu danych

Jeśli nie masz łatwo dostępnego zestawu danych i chcesz uruchomić ocenę z niewielką próbką, możesz wybrać opcję użycia modelu GPT do generowania przykładowych pytań na podstawie wybranego tematu. Temat ułatwia dostosowanie wygenerowanej zawartości do danego obszaru zainteresowania. Zapytania i odpowiedzi będą generowane w czasie rzeczywistym i masz możliwość ponownego wygenerowania ich w razie potrzeby.

Uwaga

Wygenerowany zestaw danych zostanie zapisany w magazynie obiektów blob projektu po utworzeniu przebiegu oceny.

Zrzut ekranu przedstawiający konfigurowanie danych testowych.

Mapowanie danych

Jeśli zdecydujesz się użyć istniejącego zestawu danych lub przekazać nowy zestaw danych, musisz zamapować kolumny zestawu danych na wymagane pola do oceny. Podczas oceny odpowiedź modelu zostanie oceniona pod kątem kluczowych danych wejściowych, takich jak:

  • Zapytanie: wymagane dla wszystkich metryk
  • Kontekst: opcjonalny
  • Podstawy prawdy: opcjonalne, wymagane dla metryk jakości sztucznej inteligencji (NLP)

Te mapowania zapewniają dokładne dopasowanie danych do kryteriów oceny.

Zrzut ekranu przedstawiający wybieranie kolumny danych.

Wybieranie metryk oceny

Ostatnim krokiem jest wybranie, co chcesz ocenić. Zamiast wybierać poszczególne metryki i zapoznać się ze wszystkimi dostępnymi opcjami, upraszczamy proces, umożliwiając wybranie kategorii metryk, które najlepiej spełniają Twoje potrzeby. Po wybraniu kategorii wszystkie odpowiednie metryki w tej kategorii będą obliczane na podstawie kolumn danych podanych w poprzednim kroku. Po wybraniu kategorii metryk możesz wybrać pozycję "Utwórz", aby przesłać przebieg oceny i przejść do strony oceny, aby wyświetlić wyniki.

Obsługujemy trzy kategorie:

  • Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja): musisz podać wdrożenie modelu usługi Azure OpenAI jako sędziego, aby obliczyć metryki wspomagane przez sztuczną inteligencję.
  • Jakość sztucznej inteligencji (NLP)
  • Bezpieczeństwo
Jakość sztucznej inteligencji (wspomagana sztuczna inteligencja) Jakość sztucznej inteligencji (NLP) Bezpieczeństwo
Uziemienie (wymaganie kontekstu), istotność (wymaga kontekstu), spójność, płynność Wynik F1, ROUGE, wynik, wynik BLEU, wynik GLEU, wynik METEOR Zawartość związana z samookaleczeniami, nienawistna i nieuczciwa zawartość, zawartość brutalna, zawartość seksualna, materiały chronione, atak pośredni

Tworzenie oceny przy użyciu niestandardowego przepływu oceny

Możesz opracować własne metody oceny:

Na stronie przepływu: z zwijanego menu po lewej stronie wybierz pozycję Monituj przepływ>Oceń>ocenę niestandardową.

Zrzut ekranu przedstawiający sposób tworzenia niestandardowej oceny na podstawie przepływu monitu.

Wyświetlanie ewaluatorów i zarządzanie nimi w bibliotece ewaluatorów

Biblioteka ewaluatora to scentralizowane miejsce, które umożliwia wyświetlanie szczegółów i stanu ewaluatorów. Możesz wyświetlać ewaluatorów wyselekcjonowanych przez firmę Microsoft i zarządzać nimi.

Napiwek

Możesz użyć niestandardowych ewaluatorów za pośrednictwem zestawu SDK przepływu monitów. Aby uzyskać więcej informacji, zobacz Evaluate with the prompt flow SDK (Ocena za pomocą zestawu SDK przepływu monitu).

Biblioteka ewaluatora umożliwia również zarządzanie wersjami. W razie potrzeby możesz porównać różne wersje pracy, przywrócić poprzednie wersje i łatwiej współpracować z innymi osobami.

Aby użyć biblioteki ewaluatora w portalu Azure AI Foundry, przejdź do strony Ocena projektu i wybierz kartę Biblioteka ewaluatora.

Zrzut ekranu przedstawiający stronę do wybrania ewaluatorów z biblioteki ewaluatora.

Możesz wybrać nazwę ewaluatora, aby wyświetlić więcej szczegółów. Możesz zobaczyć nazwę, opis i parametry oraz sprawdzić wszystkie pliki skojarzone z ewaluatorem. Oto kilka przykładów ewaluatorów wyselekcjonowanych przez firmę Microsoft:

  • W przypadku ewaluatorów wydajności i jakości wyselekcjonowanych przez firmę Microsoft możesz wyświetlić monit adnotacji na stronie szczegółów. Te monity można dostosować do własnego przypadku użycia, zmieniając parametry lub kryteria zgodnie z danymi i celami zestawu AZURE AI Evaluation SDK. Możesz na przykład wybrać pozycję Groundedness-Evaluator i sprawdzić plik Prompty pokazujący sposób obliczania metryki.
  • W przypadku ewaluatorów ryzyka i bezpieczeństwa wyselekcjonowanych przez firmę Microsoft można zobaczyć definicję metryk. Możesz na przykład wybrać narzędzie Self-Harm-Related-Content-Evaluator i dowiedzieć się, co to znaczy i jak firma Microsoft określa różne poziomy ważności dla tej metryki bezpieczeństwa.

Następne kroki

Dowiedz się więcej na temat oceniania generowanych aplikacji sztucznej inteligencji: