Sdílet prostřednictvím


Jak zobrazit výsledky vyhodnocení na portálu Azure AI Foundry

Stránka pro vyhodnocení portálu Azure AI Foundry je univerzální centrum, které umožňuje nejen vizualizovat a vyhodnocovat výsledky, ale slouží také jako řídicí centrum pro optimalizaci, řešení potíží a výběr ideálního modelu AI pro vaše potřeby nasazení. Jedná se o jednostavové řešení pro rozhodování a zvýšení výkonu řízené daty ve vašich projektech Azure AI Foundry. K výsledkům můžete bezproblémově přistupovat a interpretovat je z různých zdrojů, včetně toku, rychlé testovací relace dětského hřiště, uživatelského rozhraní pro odeslání vyhodnocení a sady SDK. Tato flexibilita zajišťuje, že budete moct pracovat s výsledky způsobem, který nejlépe vyhovuje vašemu pracovnímu postupu a preferencím.

Jakmile si vizualizujete výsledky vyhodnocení, můžete se ponořit do důkladného zkoumání. To zahrnuje možnost nejen zobrazit jednotlivé výsledky, ale také porovnat tyto výsledky napříč několika spuštěními vyhodnocení. Díky tomu můžete identifikovat trendy, vzory a nesrovnalosti a získat neocenitelné přehledy o výkonu systému AI za různých podmínek.

V tomto článku se naučíte:

  • Prohlédněte si výsledek vyhodnocení a metriky.
  • Porovnejte výsledky vyhodnocení.
  • Seznamte se s předdefinované metriky vyhodnocení.
  • Zvyšte výkon.
  • Prohlédněte si výsledky vyhodnocení a metriky.

Vyhledání výsledků vyhodnocení

Po odeslání vyhodnocení můžete v seznamu spuštění vyhledat odeslanou zkušební spuštění tak, že přejdete na stránku Vyhodnocení .

Testovací spuštění můžete monitorovat a spravovat v seznamu spuštění. Díky flexibilitě úprav sloupců pomocí editoru sloupců a implementaci filtrů můžete přizpůsobit a vytvořit vlastní verzi seznamu spuštění. Kromě toho můžete rychle zkontrolovat agregované metriky vyhodnocení napříč spuštěními, což vám umožní provádět rychlá porovnání.

Snímek obrazovky se seznamem zkušebních spuštění

Tip

Pokud chcete zobrazit zkušební verze s libovolnou verzí sady promptflow-evals SDK nebo azure-ai-evaluation verze 1.0.0b1, 1.0.0b2, 1.0.0b3, povolte přepínač Zobrazit všechna spuštění a vyhledejte spuštění.

Pokud chcete lépe pochopit, jak se metriky vyhodnocení odvozují, získáte přístup k komplexnímu vysvětlení výběrem možnosti Další informace o metrikách. Tento podrobný prostředek poskytuje cenné přehledy o výpočtu a interpretaci metrik používaných v procesu vyhodnocení.

Snímek obrazovky s podrobnostmi metrik vyhodnocení

Můžete zvolit konkrétní spuštění, které vás převedou na stránku podrobností o spuštění. Tady můžete získat přístup k komplexním informacím, včetně podrobností vyhodnocení, jako jsou testovací datová sada, typ úkolu, výzva, teplota a další. Kromě toho můžete zobrazit metriky přidružené k jednotlivým vzorkům dat. Grafy skóre metrik poskytují vizuální znázornění způsobu distribuce skóre pro každou metriku v celé datové sadě.

Grafy řídicího panelu metrik

Agregovaná zobrazení rozdělíme podle různých typů metrik podle kvality AI (asistované umělé inteligence), rizik a bezpečnosti, kvality AI (NLP) a vlastních, pokud je to možné. Můžete zobrazit rozdělení skóre napříč vyhodnocenou datovou sadou a zobrazit agregované skóre pro každou metriku.

  • Pro kvalitu AI (asistovaná AI) agregujeme výpočetem průměru napříč všemi skóre pro každou metriku. Pokud vypočítáte groundedness Pro, výstup je binární, a proto agregované skóre je předávací rychlost, která se vypočítá (#trues / #instances) × 100. Snímek obrazovky s kartou řídicího panelu metrik AI Quality (AI assisted)
  • Pro metriky rizik a bezpečnosti agregujeme výpočetem míry vad pro každou metriku.
    • U metrik poškození obsahu se míra vad definuje jako procento instancí ve vaší testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady. Ve výchozím nastavení je prahová hodnota Střední.
    • U chráněného materiálu a nepřímého útoku se sazba vad vypočítá jako procento instancí, kde je výstup true (Defect Rate = (#trues / #instances) × 100). Snímek obrazovky s kartou řídicího panelu s rizikovými a bezpečnostními metrikami
  • U metrik kvality AI (NLP) zobrazujeme histogram rozdělení metrik mezi 0 a 1. Agregujeme tak, že vypočítáme průměr napříč všemi skóre pro každou metriku. Snímek obrazovky s kartou řídicího panelu AI Quality (NLP)
  • U vlastních metrik můžete vybrat Přidat vlastní graf, vytvořit vlastní graf s vybranými metrikami nebo zobrazit metriku s vybranými vstupními parametry. Snímek obrazovky s automaticky otevíraných oken pro vytvoření vlastního grafu

Existující grafy můžete také přizpůsobit pro předdefinované metriky změnou typu grafu.

Snímek obrazovky se změnou typu grafu

Podrobná tabulka výsledků metrik

V tabulce podrobností metrik můžete provést komplexní zkoumání každého jednotlivého vzorku dat. Tady můžete prověřovat vygenerovaný výstup a odpovídající skóre metrik vyhodnocení. Tato úroveň podrobností umožňuje provádět rozhodnutí řízená daty a provádět konkrétní akce ke zlepšení výkonu modelu.

Mezi potenciální položky akcí na základě metrik vyhodnocení patří:

  • Rozpoznávání vzorů: Filtrováním číselných hodnot a metrik můžete přejít k podrobnostem vzorků s nižším skóre. Prozkoumejte tyto ukázky a identifikujte opakované vzory nebo problémy v odpovědích modelu. Můžete si například všimnout, že nízké skóre často dochází, když model generuje obsah v určitém tématu.
  • Upřesnění modelu: Pomocí přehledů z ukázek s nižším skóre můžete vylepšit pokyny k příkazovému řádku systému nebo doladit model. Pokud pozorujete konzistentní problémy, například koherence nebo relevance, můžete také odpovídajícím způsobem upravit trénovací data nebo parametry modelu.
  • Přizpůsobení sloupce: Editor sloupců umožňuje vytvořit přizpůsobené zobrazení tabulky a zaměřit se na metriky a data, která jsou pro vaše cíle vyhodnocení nejrelevantnější. Díky tomu můžete zefektivnit analýzu a efektivněji odhalit trendy.
  • Hledání klíčových slov: Vyhledávací pole umožňuje hledat konkrétní slova nebo fráze ve vygenerovaném výstupu. To může být užitečné pro určení problémů nebo vzorů souvisejících s konkrétními tématy nebo klíčovými slovy a jejich řešení konkrétně.

Tabulka podrobností metrik nabízí řadu dat, která můžou vést úsilí o vylepšení modelu, od rozpoznávání vzorů až po přizpůsobení zobrazení pro efektivní analýzu a upřesnění modelu na základě zjištěných problémů.

Tady je několik příkladů výsledků metrik pro scénář odpovědi na otázky:

Snímek obrazovky s výsledky metrik pro scénář odpovídání na otázky

Tady je několik příkladů výsledků metrik pro scénář konverzace:

Snímek obrazovky s výsledky metrik pro scénář konverzace

U scénáře s více konverzacemi můžete vybrat Možnost Zobrazit výsledky vyhodnocení na turnu a zkontrolovat metriky vyhodnocení jednotlivých konverzací.

Snímek obrazovky zobrazující výsledky vyhodnocení na odkaz na odevzdání ve vstupní zprávě

Snímek obrazovky s výsledky vyhodnocení na turni

Pro bezpečnostní vyhodnocení ve vícemodálním scénáři (text + obrázky) si můžete prohlédnout obrázky ze vstupu i výstupu v podrobné tabulce výsledků metrik, abyste lépe pochopili výsledek vyhodnocení. Vzhledem k tomu, že u scénářů konverzace se aktuálně podporuje vícemodální vyhodnocení, můžete vybrat Možnost Zobrazit výsledky vyhodnocení na turnu a prozkoumat vstup a výstup jednotlivých turnů.

Snímek obrazovky s podrobnými výsledky metrik

Snímek obrazovky s místním obrázkem ze sloupce konverzace

Výběrem obrázku ho rozbalíte a zobrazíte. Ve výchozím nastavení jsou všechny obrázky rozmazané, aby vás chránily před potenciálně škodlivým obsahem. Pokud chcete obrázek jasně zobrazit, zapněte přepínač Zkontrolovat rozostření obrázku.

Snímek obrazovky s rozmazaným obrázkem, který zobrazuje přepínač kontrolního modrého obrázku

Pro metriky rizika a bezpečnosti poskytuje vyhodnocení skóre závažnosti a odůvodnění pro každé skóre. Tady je několik příkladů výsledků metrik rizik a bezpečnosti pro scénář odpovědi na otázky:

Snímek obrazovky s výsledky metrik rizik a bezpečnosti pro scénář odpovědi na otázky

Výsledky vyhodnocení můžou mít různé významy pro různé cílové skupiny. Například vyhodnocení bezpečnosti může generovat popisek pro "nízkou" závažnost násilného obsahu, který nemusí odpovídat definici lidského revidujícímu, jak závažný může být konkrétní násilné obsah. Při kontrole výsledků vyhodnocení poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem.

Snímek obrazovky s výsledky metrik rizik a bezpečnosti s lidskou zpětnou vazbou

Při pochopení jednotlivých metrik rizika obsahu můžete snadno zobrazit každou definici metriky a měřítko závažnosti tak, že vyberete název metriky nad grafem a zobrazíte podrobné vysvětlení v automaticky otevíraném okně.

Snímek obrazovky s podrobným vysvětlením rizikových a bezpečnostních metrik

Pokud se spuštění něco nepovedlo, můžete také ladit zkušební spuštění s protokoly.

Tady je několik příkladů protokolů, které můžete použít k ladění zkušebního spuštění:

Snímek obrazovky s protokoly, které můžete použít k ladění zkušebního spuštění

Pokud vyhodnocujete tok výzvy, můžete výběrem tlačítka Zobrazit v toku přejít na stránku vyhodnoceného toku a aktualizovat tok. Můžete například přidat další instrukci meta příkazového řádku nebo změnit některé parametry a znovu vyhodnotit.

Správa a sdílení zobrazení s možnostmi zobrazení

Na stránce Podrobnosti vyhodnocení můžete zobrazení přizpůsobit přidáním vlastních grafů nebo úpravou sloupců. Po přizpůsobení můžete zobrazení uložit nebo sdílet s ostatními pomocí možností zobrazení. Díky tomu můžete zkontrolovat výsledky vyhodnocení ve formátu přizpůsobeném vašim preferencím a usnadnit spolupráci s kolegy.

Snímek obrazovky s rozevíracím seznamem možností zobrazení

Porovnání výsledků vyhodnocení

Pokud chcete usnadnit komplexní porovnání mezi dvěma nebo více spuštěními, máte možnost vybrat požadovaná spuštění a zahájit proces tak, že vyberete tlačítko Porovnat nebo v případě obecného podrobného zobrazení řídicího panelu tlačítko Přepnout na zobrazení řídicího panelu. Tato funkce umožňuje analyzovat a kontrastovat výkon a výsledky více spuštění, což umožňuje informovanější rozhodování a cílená vylepšení.

Snímek obrazovky s možností porovnání vyhodnocení

V zobrazení řídicího panelu máte přístup ke dvěma cenným komponentám: srovnávacímu grafu rozdělení metrik a srovnávací tabulce. Tyto nástroje umožňují provádět souběžnou analýzu vybraných spuštění vyhodnocení, což vám umožní snadno a přesně porovnat různé aspekty jednotlivých vzorků dat.

Snímek obrazovky se stránkou vyhodnocení metrik s možností vybrat ruční vyhodnocení

V tabulce porovnání máte možnost vytvořit směrný plán pro porovnání tak, že najedete myší na konkrétní spuštění, které chcete použít jako referenční bod a nastavíte jako směrný plán. Navíc aktivací přepínače Zobrazit rozdíl můžete snadno vizualizovat rozdíly mezi spuštěním směrného plánu a ostatními běhy pro číselné hodnoty. Kromě toho s povoleným přepínačem Zobrazit pouze rozdíl zobrazí tabulka pouze řádky, které se liší mezi vybranými spuštěními, a pomáhá tak identifikaci různých variant.

Pomocí těchto funkcí porovnání můžete informovaně rozhodnout, že vyberete nejlepší verzi:

  • Porovnání směrného plánu: Nastavením běhu podle směrného plánu můžete identifikovat referenční bod, proti kterému chcete porovnat ostatní spuštění. To vám umožní zjistit, jak se jednotlivé běhy liší od zvoleného standardu.
  • Posouzení číselných hodnot: Povolení možnosti Zobrazit rozdíl vám pomůže pochopit rozsah rozdílů mezi směrným plánem a dalšími spuštěními. To je užitečné při vyhodnocování toho, jak různá spuštění fungují z hlediska konkrétních metrik vyhodnocení.
  • Izolace rozdílů: Funkce Zobrazit jediný rozdíl zjednodušuje analýzu tím, že zvýrazňuje pouze oblasti, ve kterých dochází k nesrovnalostem mezi běhy. To může být instrumentální při určení toho, kde jsou potřeba vylepšení nebo úpravy.

Díky efektivnímu použití těchto srovnávacích nástrojů můžete určit, která verze modelu nebo systému nejlépe vyhovuje vašim definovaným kritériím a metrikám, a nakonec vám pomůže vybrat nejvhodnější možnost pro vaši aplikaci.

Snímek obrazovky se souběžnými výsledky vyhodnocení

Měření ohrožení zabezpečení jailbreaku

Vyhodnocení jailbreaku je srovnávací měření, nikoli metrika s asistencí umělé inteligence. Spouštějte vyhodnocení na dvou různých, red-seskupených datových sadách: standardní testovací datová sada nežádoucích testovacích dat a stejná nežádoucí testovací datová sada s injektážemi jailbreaku na prvním místě. Simulátor nežádoucích dat můžete použít k vygenerování datové sady s injektážemi jailbreaku nebo bez injektáže jailbreaku.

Pokud chcete zjistit, jestli je vaše aplikace zranitelná vůči jailbreaku, můžete určit, který směrný plán je, a zapnout přepínač "Jailbreak defect rates" (Sazby chyb jailbreaku) v tabulce porovnání. Míra chyb jailbreaku je definována jako procento instancí v testovací datové sadě, kde injektáž jailbreaku generovala vyšší skóre závažnosti pro každou metriku rizika obsahu s ohledem na směrný plán nad celou velikostí datové sady. Na řídicím panelu porovnání můžete vybrat více vyhodnocení, abyste viděli rozdíly v sazbách vad.

Snímek obrazovky se souběžnými výsledky vyhodnocení s zapnutou chybou jailbreaku

Tip

Míra chyb jailbreaku se poměrně počítá jenom u datových sad se stejnou velikostí a pouze v případě, že všechna spuštění zahrnují rizika obsahu a bezpečnostní metriky.

Vysvětlení předdefinovaných metrik vyhodnocení

Pochopení předdefinovaných metrik je důležité pro posouzení výkonu a efektivity vaší aplikace AI. Získáním přehledů o těchto klíčových nástrojích pro měření jste lépe vybaveni k interpretaci výsledků, provádění informovaných rozhodnutí a vyladění aplikace, abyste dosáhli optimálních výsledků. Další informace o významu každé metriky, způsobu výpočtu, její roli při vyhodnocování různých aspektů modelu a o tom, jak interpretovat výsledky, abyste provedli vylepšení založená na datech, najdete v tématu Metriky vyhodnocení a monitorování.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Přečtěte si další informace o technikách zmírnění škod.