Sdílet prostřednictvím


Jak vyhodnotit modely a aplikace generující AI pomocí Azure AI Foundry

Pokud chcete důkladně posoudit výkon generovaných modelů AI a aplikací při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se model nebo aplikace testují s danou datovou sadou a jeho výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí AI. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení na portálu Azure AI Foundry, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. Na portálu Azure AI Foundry můžete protokolovat, zobrazovat a analyzovat podrobné metriky hodnocení.

V tomto článku se dozvíte, jak vytvořit testovací běh proti modelu, testovací datovou sadu nebo tok s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Foundry. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.

Požadavky

Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:

  • Testovací datová sada v jednom z těchto formátů: csv nebo jsonl.
  • Připojení Azure OpenAI Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci. Vyžaduje se pouze v případě, že spustíte hodnocení kvality s asistencí umělé inteligence.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Na portálu Azure AI Foundry můžete vytvořit zkušební spuštění z webu hodnocení, katalogu modelů nebo na stránkách toku výzvy. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.

Na stránce vyhodnocení

V levé sbalitelné nabídce vyberte Vyhodnocení> a vytvořit nové vyhodnocení.

Snímek obrazovky s tlačítkem pro vytvoření nového vyhodnocení

Ze stránky katalogu modelů

V levé sbalitelné nabídce vyberte Katalog> modelů, přejděte na konkrétní model>, přejděte na kartu > Srovnávací test Vyzkoušet s vlastními daty. Tím se otevře panel vyhodnocení modelu, který vám umožní vytvořit spuštění vyhodnocení pro vybraný model.

Snímek obrazovky s tlačítkem Try with your own data button from the model catalog page

Ze stránky toku

V levé sbalitelné nabídce vyberte Tok>výzvy Vyhodnotit>automatizované vyhodnocení.

Snímek obrazovky s výběrem integrovaného vyhodnocení

Cíl vyhodnocení

Když začnete vyhodnocení ze stránky vyhodnocení, musíte nejprve rozhodnout, jaký je cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. Podporujeme tři typy cíle hodnocení:

  • Model a výzva: Chcete vyhodnotit výstup vygenerovaný vybraným modelem a uživatelem definovanou výzvou.
  • Datová sada: V testovací datové sadě už máte vygenerované výstupy modelu.
  • Tok výzvy: Vytvořili jste tok a chcete vyhodnotit výstup z toku.

Snímek obrazovky s výběrem cíle vyhodnocení

Vyhodnocení toku datové sady nebo výzvy

Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název pro spuštění vyhodnocení. V současné době nabízíme podporu pro scénář dotazů a odpovědí, který je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi nebo bez ně.

Volitelně můžete přidat popisy a značky ke zkušebním spuštěním pro vylepšenou organizaci, kontext a snadné načítání.

Pomocí panelu nápovědy můžete také zkontrolovat nejčastější dotazy a průvodce průvodcem.

Snímek obrazovky se stránkou základních informací při vytváření nového vyhodnocení

Pokud vyhodnocujete tok výzvy, můžete vybrat tok, který chcete vyhodnotit. Pokud zahájíte vyhodnocení ze stránky Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.

Snímek obrazovky s výběrem toku, který se má vyhodnotit na stránce při vytváření nového vyhodnocení

Konfigurace testovacích dat

Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.

  • Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.

    Snímek obrazovky s možností zvolit testovací data při vytváření nového vyhodnocení

  • Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme .csv pouze formáty souborů a .jsonl formáty souborů.

    Snímek obrazovky s možností nahrát soubor při vytváření nového vyhodnocení

  • Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.

    Snímek obrazovky s mapováním datové sady při vytváření nového vyhodnocení

Výběr metrik

Podporujeme tři typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

  • Kvalita AI (asistovaná AI): Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu. Ke spuštění těchto metrik vyžaduje nasazení modelu jako soudce.
  • Kvalita AI (NLP): Tyto metriky NLP jsou matematické a také vyhodnocují celkovou kvalitu generovaného obsahu. Často vyžadují základní pravdivá data, ale nevyžadují nasazení modelu jako soudce.
  • Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

Snímek obrazovky s vybranou možností Zvolit, co chcete vyhodnotit s vybranou kvalitou a bezpečností umělé inteligence

V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.

Kvalita AI (asistovaná AI) Kvalita AI (NLP) Metriky rizik a bezpečnosti
Uzemnění, relevance, soudržnost, plynulost, podobnost GPT F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Při spouštění hodnocení kvality asistované umělé inteligence je nutné zadat model GPT pro výpočetní proces. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.

Snímek obrazovky s metrikami kvality AI (asistovaná AI) se zemněním, relevanci a koherencemi vybranými při vytváření nového hodnocení

Metriky kvality AI (NLP) jsou matematicky založené na měřeních, která vyhodnocují výkon vaší aplikace. Často vyžadují základní pravdivá data pro výpočet. ROUGE je řada metrik. Pokud chcete vypočítat skóre, můžete vybrat typ ROUGE. Různé typy metrik ROUGE nabízejí způsoby, jak vyhodnotit kvalitu generování textu. ROUGE-N měří překrývání n-gramů mezi kandidátskými a referenčními texty.

Snímek obrazovky s metrikou kvality AI (NLP) se zemněním, relevanci a metrikou soudržnosti vybranou při vytváření nového vyhodnocení

U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba portálu Azure AI Foundry zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za poškození obsahu.

Můžete nastavit prahovou hodnotu pro výpočet míry vad pro metriky poškození obsahu (obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah). Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.

U chráněného materiálu a nepřímého útoku se sazba vad počítá tak, že vezme procento instancí, kde je výstup "true" (Defect Rate = (#trues / #instances) × 100).

Snímek obrazovky s metrikami rizik a bezpečnosti kurátorovanými Microsoftem, který znázorňuje vybranou možnost sebepoškozování, chráněného materiálu a nepřímého útoku

Poznámka:

Metriky rizik a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou vyhodnocení bezpečnosti Azure AI Foundry a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed

Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Snímek obrazovky s mapováním datové sady na vstup vyhodnocení

Poznámka:

Pokud vyhodnocujete data, měla by se odpověď namapovat na sloupec odpovědi ve vaší datové sadě ${data$response}. Pokud vyhodnocujete tok, měla by odpověď pocházet z výstupu ${run.outputs.response}toku .

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Požadavky na metriky dotazů a odpovědí
Metrika Dotaz Response Kontext Základní pravda
Uzemnění Povinné: Str Povinné: Str Povinné: Str
Koherence Povinné: Str Povinné: Str N/A
Plynulost Povinné: Str Povinné: Str N/A
Relevance Povinné: Str Povinné: Str Povinné: Str
Podobnost GPT Povinné: Str Povinné: Str Povinné: Str
F1 – skóre Povinné: Str Povinné: Str
Skóre BLEU Povinné: Str Povinné: Str
Skóre GLEU Povinné: Str Povinné: Str
Skóre METEOR Povinné: Str Povinné: Str
SKÓRE VE SPOLEČNOSTI ROUGE Povinné: Str Povinné: Str
Obsah související s vlastním poškozením Povinné: Str Povinné: Str N/A
Nenávistný a nespravedlivý obsah Povinné: Str Povinné: Str N/A
Násilné obsah Povinné: Str Povinné: Str N/A
Sexuální obsah Povinné: Str Povinné: Str N/A
Chráněný materiál Povinné: Str Povinné: Str N/A
Nepřímý útok Povinné: Str Povinné: Str N/A
  • Dotaz: dotaz, který hledá konkrétní informace.
  • Odpověď: odpověď na dotaz vygenerovaný modelem.
  • Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)...
  • Pravdivá pravda: odpověď na dotaz vygenerovaný uživatelem nebo člověkem jako pravdivá odpověď.

Kontrola a dokončení

Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.

Snímek obrazovky se stránkou revize a dokončení pro vytvoření nového vyhodnocení

Modelování a vyhodnocení výzvy

Pokud chcete vytvořit nové vyhodnocení pro vybrané nasazení modelu a definovanou výzvu, použijte zjednodušený panel vyhodnocení modelu. Toto zjednodušené rozhraní umožňuje konfigurovat a inicializovat vyhodnocení v rámci jednoho konsolidovaného panelu.

Základní informace

Začněte tím, že nastavíte název zkušebního spuštění. Pak vyberte nasazení modelu, které chcete vyhodnotit. Podporujeme modely Azure OpenAI i jiné otevřené modely kompatibilní s modelem jako službou (MaaS), jako jsou modely řady Meta Llama a Phi-3. Volitelně můžete upravit parametry modelu, jako je maximální odezva, teplota a nejvyšší P podle vašich potřeb.

Do textového pole Systémová zpráva zadejte výzvu pro váš scénář. Další informace o tom, jak vytvořit výzvu, naleznete v katalogu výzvy. Můžete se rozhodnout přidat příklad, abyste zobrazili chat, jaké odpovědi chcete. Pokusí se napodobovat všechny odpovědi, které sem přidáte, aby odpovídaly pravidlům stanoveným v systémové zprávě.

Snímek obrazovky se základními informacemi

Konfigurace testovacích dat

Po nakonfigurování modelu a zobrazení výzvy nastavte testovací datovou sadu, která se použije k vyhodnocení. Tato datová sada se odešle do modelu, aby se vygenerovaly odpovědi pro posouzení. Máte tři možnosti konfigurace testovacích dat:

  • Generování ukázkových dat
  • Použití existující datové sady
  • Přidání datové sady

Pokud datovou sadu nemáte snadno dostupnou a chcete spustit vyhodnocení s malou ukázkou, můžete vybrat možnost použití modelu GPT k vygenerování ukázkových otázek na základě zvoleného tématu. Toto téma vám pomůže přizpůsobit vygenerovaný obsah pro vaši oblast zájmu. Dotazy a odpovědi se vygenerují v reálném čase a máte možnost je podle potřeby znovu vygenerovat.

Poznámka:

Vygenerovaná datová sada se po vytvoření zkušebního spuštění uloží do úložiště objektů blob projektu.

Snímek obrazovky konfigurace testovacích dat

Mapování dat

Pokud se rozhodnete použít existující datovou sadu nebo nahrát novou datovou sadu, budete muset sloupce datové sady namapovat na požadovaná pole pro vyhodnocení. Během vyhodnocení se odpověď modelu vyhodnotí na základě klíčových vstupů, jako jsou:

  • Dotaz: Vyžadováno pro všechny metriky
  • Kontext: volitelné
  • Základní pravda: volitelné, povinné pro metriky kvality AI (NLP)

Tato mapování zajišťují přesné zarovnání mezi vašimi daty a kritérii hodnocení.

Snímek obrazovky s výběrem datového sloupce

Volba metrik vyhodnocení

Posledním krokem je výběr toho, co chcete vyhodnotit. Místo výběru jednotlivých metrik a seznámení se všemi dostupnými možnostmi zjednodušíme proces tím, že vám umožní vybrat kategorie metrik, které nejlépe vyhovují vašim potřebám. Když zvolíte kategorii, budou se všechny relevantní metriky v dané kategorii počítat na základě datových sloupců, které jste zadali v předchozím kroku. Jakmile vyberete kategorie metrik, můžete výběrem možnosti Vytvořit odeslat zkušební spuštění a přejít na stránku vyhodnocení a zobrazit výsledky.

Podporujeme tři kategorie:

  • Kvalita AI (asistovaná AI): Musíte jako soudce poskytnout nasazení modelu Azure OpenAI, abyste mohli vypočítat metriky asistované umělé inteligence.
  • Kvalita AI (NLP)
  • Bezpečnost
Kvalita AI (asistovaná AI) Kvalita AI (NLP) Bezpečnost
Uzemnění (vyžadování kontextu), relevance (vyžadování kontextu), soudržnost, plynulost F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Můžete vyvíjet vlastní metody hodnocení:

Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.

Snímek obrazovky znázorňující, jak vytvořit vlastní vyhodnocení z toku výzvy

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.

Tip

Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače na portálu Azure AI Foundry, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.

Snímek obrazovky se stránkou pro výběr vyhodnocovačů z knihovny vyhodnocovačů

Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:

  • U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití tak, že změníte parametry nebo kritéria podle vašich dat a cílů sady AZURE AI Evaluation SDK. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
  • U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto bezpečnostní metriku.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence: