Jak vyhodnotit modely a aplikace generující AI pomocí Azure AI Foundry

Článek
11/24/2024

Pokud chcete důkladně posoudit výkon generovaných modelů AI a aplikací při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se model nebo aplikace testují s danou datovou sadou a jeho výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí AI. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení na portálu Azure AI Foundry, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. Na portálu Azure AI Foundry můžete protokolovat, zobrazovat a analyzovat podrobné metriky hodnocení.

V tomto článku se dozvíte, jak vytvořit testovací běh proti modelu, testovací datovou sadu nebo tok s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Foundry. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.

Požadavky

Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:

Testovací datová sada v jednom z těchto formátů: csv nebo jsonl.
Připojení Azure OpenAI Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci. Vyžaduje se pouze v případě, že spustíte hodnocení kvality s asistencí umělé inteligence.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Na portálu Azure AI Foundry můžete vytvořit zkušební spuštění z webu hodnocení, katalogu modelů nebo na stránkách toku výzvy. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.

Na stránce vyhodnocení

V levé sbalitelné nabídce vyberte Vyhodnocení> a vytvořit nové vyhodnocení.

Ze stránky katalogu modelů

V levé sbalitelné nabídce vyberte Katalog> modelů, přejděte na konkrétní model>, přejděte na kartu > Srovnávací test Vyzkoušet s vlastními daty. Tím se otevře panel vyhodnocení modelu, který vám umožní vytvořit spuštění vyhodnocení pro vybraný model.

Ze stránky toku

V levé sbalitelné nabídce vyberte Tok>výzvy Vyhodnotit>automatizované vyhodnocení.

Cíl vyhodnocení

Když začnete vyhodnocení ze stránky vyhodnocení, musíte nejprve rozhodnout, jaký je cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. Podporujeme tři typy cíle hodnocení:

Model a výzva: Chcete vyhodnotit výstup vygenerovaný vybraným modelem a uživatelem definovanou výzvou.
Datová sada: V testovací datové sadě už máte vygenerované výstupy modelu.
Tok výzvy: Vytvořili jste tok a chcete vyhodnotit výstup z toku.

Vyhodnocení toku datové sady nebo výzvy

Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název pro spuštění vyhodnocení. V současné době nabízíme podporu pro scénář dotazů a odpovědí, který je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi nebo bez ně.

Volitelně můžete přidat popisy a značky ke zkušebním spuštěním pro vylepšenou organizaci, kontext a snadné načítání.

Pomocí panelu nápovědy můžete také zkontrolovat nejčastější dotazy a průvodce průvodcem.

Pokud vyhodnocujete tok výzvy, můžete vybrat tok, který chcete vyhodnotit. Pokud zahájíte vyhodnocení ze stránky Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.

Konfigurace testovacích dat

Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.

Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.
Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme .csv pouze formáty souborů a .jsonl formáty souborů.
Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.

Výběr metrik

Podporujeme tři typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

Kvalita AI (asistovaná AI): Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu. Ke spuštění těchto metrik vyžaduje nasazení modelu jako soudce.
Kvalita AI (NLP): Tyto metriky NLP jsou matematické a také vyhodnocují celkovou kvalitu generovaného obsahu. Často vyžadují základní pravdivá data, ale nevyžadují nasazení modelu jako soudce.
Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.

Kvalita AI (asistovaná AI)	Kvalita AI (NLP)	Metriky rizik a bezpečnosti
Uzemnění, relevance, soudržnost, plynulost, podobnost GPT	F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score	Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Při spouštění hodnocení kvality asistované umělé inteligence je nutné zadat model GPT pro výpočetní proces. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.

Metriky kvality AI (NLP) jsou matematicky založené na měřeních, která vyhodnocují výkon vaší aplikace. Často vyžadují základní pravdivá data pro výpočet. ROUGE je řada metrik. Pokud chcete vypočítat skóre, můžete vybrat typ ROUGE. Různé typy metrik ROUGE nabízejí způsoby, jak vyhodnotit kvalitu generování textu. ROUGE-N měří překrývání n-gramů mezi kandidátskými a referenčními texty.

U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba portálu Azure AI Foundry zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za poškození obsahu.

Můžete nastavit prahovou hodnotu pro výpočet míry vad pro metriky poškození obsahu (obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah). Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.

U chráněného materiálu a nepřímého útoku se sazba vad počítá tak, že vezme procento instancí, kde je výstup "true" (Defect Rate = (#trues / #instances) × 100).

Poznámka:

Metriky rizik a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou vyhodnocení bezpečnosti Azure AI Foundry a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed

Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Poznámka:

Pokud vyhodnocujete data, měla by se odpověď namapovat na sloupec odpovědi ve vaší datové sadě ${data$response}. Pokud vyhodnocujete tok, měla by odpověď pocházet z výstupu ${run.outputs.response}toku .

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Požadavky na metriky dotazů a odpovědí

Metrika	Dotaz	Response	Kontext	Základní pravda
Uzemnění	Povinné: Str	Povinné: Str	Povinné: Str	–
Koherence	Povinné: Str	Povinné: Str	–	N/A
Plynulost	Povinné: Str	Povinné: Str	–	N/A
Relevance	Povinné: Str	Povinné: Str	Povinné: Str	–
Podobnost GPT	Povinné: Str	Povinné: Str	–	Povinné: Str
F1 – skóre	–	Povinné: Str	–	Povinné: Str
Skóre BLEU	–	Povinné: Str	–	Povinné: Str
Skóre GLEU	–	Povinné: Str	–	Povinné: Str
Skóre METEOR	–	Povinné: Str	–	Povinné: Str
SKÓRE VE SPOLEČNOSTI ROUGE	–	Povinné: Str	–	Povinné: Str
Obsah související s vlastním poškozením	Povinné: Str	Povinné: Str	–	N/A
Nenávistný a nespravedlivý obsah	Povinné: Str	Povinné: Str	–	N/A
Násilné obsah	Povinné: Str	Povinné: Str	–	N/A
Sexuální obsah	Povinné: Str	Povinné: Str	–	N/A
Chráněný materiál	Povinné: Str	Povinné: Str	–	N/A
Nepřímý útok	Povinné: Str	Povinné: Str	–	N/A

Dotaz: dotaz, který hledá konkrétní informace.
Odpověď: odpověď na dotaz vygenerovaný modelem.
Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)...
Pravdivá pravda: odpověď na dotaz vygenerovaný uživatelem nebo člověkem jako pravdivá odpověď.

Kontrola a dokončení

Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.

Modelování a vyhodnocení výzvy

Pokud chcete vytvořit nové vyhodnocení pro vybrané nasazení modelu a definovanou výzvu, použijte zjednodušený panel vyhodnocení modelu. Toto zjednodušené rozhraní umožňuje konfigurovat a inicializovat vyhodnocení v rámci jednoho konsolidovaného panelu.

Základní informace

Začněte tím, že nastavíte název zkušebního spuštění. Pak vyberte nasazení modelu, které chcete vyhodnotit. Podporujeme modely Azure OpenAI i jiné otevřené modely kompatibilní s modelem jako službou (MaaS), jako jsou modely řady Meta Llama a Phi-3. Volitelně můžete upravit parametry modelu, jako je maximální odezva, teplota a nejvyšší P podle vašich potřeb.

Do textového pole Systémová zpráva zadejte výzvu pro váš scénář. Další informace o tom, jak vytvořit výzvu, naleznete v katalogu výzvy. Můžete se rozhodnout přidat příklad, abyste zobrazili chat, jaké odpovědi chcete. Pokusí se napodobovat všechny odpovědi, které sem přidáte, aby odpovídaly pravidlům stanoveným v systémové zprávě.

Konfigurace testovacích dat

Po nakonfigurování modelu a zobrazení výzvy nastavte testovací datovou sadu, která se použije k vyhodnocení. Tato datová sada se odešle do modelu, aby se vygenerovaly odpovědi pro posouzení. Máte tři možnosti konfigurace testovacích dat:

Generování ukázkových dat
Použití existující datové sady
Přidání datové sady

Pokud datovou sadu nemáte snadno dostupnou a chcete spustit vyhodnocení s malou ukázkou, můžete vybrat možnost použití modelu GPT k vygenerování ukázkových otázek na základě zvoleného tématu. Toto téma vám pomůže přizpůsobit vygenerovaný obsah pro vaši oblast zájmu. Dotazy a odpovědi se vygenerují v reálném čase a máte možnost je podle potřeby znovu vygenerovat.

Poznámka:

Vygenerovaná datová sada se po vytvoření zkušebního spuštění uloží do úložiště objektů blob projektu.

Mapování dat

Pokud se rozhodnete použít existující datovou sadu nebo nahrát novou datovou sadu, budete muset sloupce datové sady namapovat na požadovaná pole pro vyhodnocení. Během vyhodnocení se odpověď modelu vyhodnotí na základě klíčových vstupů, jako jsou:

Dotaz: Vyžadováno pro všechny metriky
Kontext: volitelné
Základní pravda: volitelné, povinné pro metriky kvality AI (NLP)

Tato mapování zajišťují přesné zarovnání mezi vašimi daty a kritérii hodnocení.

Volba metrik vyhodnocení

Posledním krokem je výběr toho, co chcete vyhodnotit. Místo výběru jednotlivých metrik a seznámení se všemi dostupnými možnostmi zjednodušíme proces tím, že vám umožní vybrat kategorie metrik, které nejlépe vyhovují vašim potřebám. Když zvolíte kategorii, budou se všechny relevantní metriky v dané kategorii počítat na základě datových sloupců, které jste zadali v předchozím kroku. Jakmile vyberete kategorie metrik, můžete výběrem možnosti Vytvořit odeslat zkušební spuštění a přejít na stránku vyhodnocení a zobrazit výsledky.

Podporujeme tři kategorie:

Kvalita AI (asistovaná AI): Musíte jako soudce poskytnout nasazení modelu Azure OpenAI, abyste mohli vypočítat metriky asistované umělé inteligence.
Kvalita AI (NLP)
Bezpečnost

Kvalita AI (asistovaná AI)	Kvalita AI (NLP)	Bezpečnost
Uzemnění (vyžadování kontextu), relevance (vyžadování kontextu), soudržnost, plynulost	F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score	Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Můžete vyvíjet vlastní metody hodnocení:

Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.

Tip

Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače na portálu Azure AI Foundry, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.

Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:

U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití tak, že změníte parametry nebo kritéria podle vašich dat a cílů sady AZURE AI Evaluation SDK. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto bezpečnostní metriku.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Vyhodnocení aplikací generující umělé inteligence prostřednictvím dětského hřiště
Zobrazení výsledků vyhodnocení
Přečtěte si další informace o technikách zmírnění škod.
Poznámka k transparentnosti pro vyhodnocení bezpečnosti Azure AI Foundry

Sdílet prostřednictvím

Jak vyhodnotit modely a aplikace generující AI pomocí Azure AI Foundry

Požadavky

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Na stránce vyhodnocení

Ze stránky katalogu modelů

Ze stránky toku

Cíl vyhodnocení

Vyhodnocení toku datové sady nebo výzvy

Konfigurace testovacích dat

Výběr metrik

Požadavky na metriky dotazů a odpovědí

Kontrola a dokončení

Modelování a vyhodnocení výzvy

Základní informace

Konfigurace testovacích dat

Mapování dat

Volba metrik vyhodnocení

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Další kroky

Váš názor

Další materiály