Odeslání dávkového spuštění pro vyhodnocení toku

Článek
11/02/2024

Dávkové spuštění spustí tok výzvy s velkou datovou sadou a vygeneruje výstupy pro každý řádek dat. Pokud chcete vyhodnotit, jak dobře tok výzvy funguje s velkou datovou sadou, můžete odeslat dávkové spuštění a použít metody vyhodnocení ke generování výkonnostních skóre a metrik.

Po dokončení dávkového toku se metody vyhodnocení automaticky spustí, aby vypočítaly skóre a metriky. Metriky vyhodnocení můžete použít k vyhodnocení výstupu toku podle vašich kritérií výkonu a cílů.

Tento článek popisuje, jak odeslat dávkové spuštění a použít metodu vyhodnocení k měření kvality výstupu toku. Dozvíte se, jak zobrazit výsledek vyhodnocení a metriky a jak zahájit nové kolo vyhodnocení s jinou metodou nebo podmnožinou variant.

Požadavky

Ke spuštění dávkového toku s metodou vyhodnocení potřebujete následující komponenty:

Funkční tok výzvy služby Azure Machine Learning, pro který chcete otestovat výkon.
Testovací datová sada, která se má použít pro dávkové spuštění.

Testovací datová sada musí být ve formátu CSV, TSV nebo JSONL a měla by obsahovat hlavičky, které odpovídají vstupním názvům vašeho toku. Během procesu nastavení zkušebního spuštění ale můžete namapovat různé sloupce datové sady na vstupní sloupce.

Vytvoření a odeslání zkušebního dávkového spuštění

Pokud chcete odeslat dávkové spuštění, vyberte datovou sadu, pomocí které chcete tok otestovat. Můžete také vybrat metodu vyhodnocení pro výpočet metrik pro výstup toku. Pokud nechcete použít metodu vyhodnocení, můžete přeskočit kroky vyhodnocení a spustit dávkové spuštění bez výpočtu metrik. Zkušební kolo můžete spustit i později.

Pokud chcete spustit dávkové spuštění s vyhodnocením nebo bez vyhodnocení, vyberte Vyhodnotit v horní části stránky toku výzvy.
Na stránce Základní nastavení průvodce spuštěním a vyhodnocením služby Batch upravte zobrazovaný název spuštění, pokud je to žádoucí, a volitelně zadejte popis spuštění a značky. Vyberte Další.
Na stránce nastavení spuštění služby Batch vyberte datovou sadu, která se má použít, a nakonfigurujte mapování vstupu.

Tok výzvy podporuje mapování vstupu toku na konkrétní datový sloupec v datové sadě. Sloupec datové sady můžete přiřadit určitému vstupu pomocí .${data.<column>} Pokud chcete ke vstupu přiřadit konstantní hodnotu, můžete tuto hodnotu zadat přímo.
V tomto okamžiku můžete vybrat Zkontrolovat a odeslat , abyste přeskočí kroky vyhodnocení a spustili dávkové spuštění bez použití žádné metody vyhodnocení. Dávkové spuštění pak vygeneruje jednotlivé výstupy pro každou položku v datové sadě. Výstupy můžete zkontrolovat ručně nebo je exportovat pro další analýzu.

Pokud chcete k ověření výkonu tohoto spuštění použít metodu vyhodnocení, vyberte Další. Do dokončeného dávkového spuštění můžete také přidat nové kolo vyhodnocení.
Na stránce Vybrat vyhodnocení vyberte jednu nebo více přizpůsobených nebo předdefinovaných vyhodnocení, která se mají spustit. Pokud chcete zobrazit další informace o metodě vyhodnocení, například metriky, které generuje, a připojení a vstupy, které vyžaduje, můžete vybrat tlačítko Zobrazit podrobnosti .
Dále na obrazovce Konfigurovat vyhodnocení zadejte zdroje požadovaných vstupů pro vyhodnocení. Například sloupec základní pravdy může pocházet z datové sady. Ve výchozím nastavení používá vyhodnocení stejnou datovou sadu jako celkové dávkové spuštění. Pokud jsou ale odpovídající popisky nebo cílové hodnoty pravdivých informací v jiné datové sadě, můžete ho použít.

Poznámka:

Pokud vaše metoda vyhodnocení nevyžaduje data z datové sady, je výběr datové sady volitelnou konfigurací, která nemá vliv na výsledky vyhodnocení. Nemusíte vybírat datovou sadu ani odkazovat na žádné sloupce datové sady v části mapování vstupu.
V části Mapování vstupu vyhodnocení uveďte zdroje požadovaných vstupů pro vyhodnocení.
- Pokud jsou data z testovací datové sady, nastavte zdroj jako ${data.[ColumnName]}.
- Pokud jsou data z výstupu spuštění, nastavte zdroj jako ${run.outputs.[OutputName]}.
Některé metody vyhodnocení vyžadují velké jazykové modely (LLM), jako je GPT-4 nebo GPT-3, nebo potřebují jiná připojení k využívání přihlašovacích údajů nebo klíčů. U těchto metod je nutné zadat data připojení do části Připojení v dolní části této obrazovky, aby bylo možné použít tok vyhodnocení. Další informace najdete v tématu Nastavení připojení.
Výběrem možnosti Zkontrolovat a odeslat zkontrolujte nastavení a pak výběrem možnosti Odeslat spusťte dávkové spuštění s vyhodnocením.

Poznámka:

Některé procesy vyhodnocení používají mnoho tokenů, proto doporučujeme použít model, který může podporovat >=16 tisíc tokenů.
Spuštění služby Batch mají maximální dobu trvání 10 hodin. Pokud dávkové spuštění překročí tento limit, ukončí se a zobrazí se jako neúspěšné. Monitorujte kapacitu LLM, abyste se vyhnuli omezování. V případě potřeby zvažte zmenšení velikosti dat. Pokud problémy přetrvávají, vytvořte formulář pro zpětnou vazbu nebo žádost o podporu.

Zobrazení výsledků vyhodnocení a metrik

Seznam odeslaných dávkových spuštění najdete na kartě Spuštění na stránce toku studio Azure Machine Learning výzvy.

Pokud chcete zkontrolovat výsledky dávkového spuštění, vyberte spuštění a pak vyberte Vizualizovat výstupy.

Na obrazovce Vizualizujte výstupy, v části Spuštění a metriky se zobrazují celkové výsledky dávkového spuštění a spuštění vyhodnocení. Oddíl Výstupy zobrazuje vstupy spuštění řádek po řádku v tabulce výsledků, která obsahuje také ID řádku, spuštění, stav a systémové metriky.
Pokud povolíte ikonu Zobrazení vedle spuštění vyhodnocení v části Spuštění a metriky, zobrazí se v tabulce Výstupy také hodnocení nebo hodnocení pro každý řádek.
Výběrem ikony Zobrazit podrobnosti vedle každého řádku v tabulce Výstupy můžete sledovat a ladit zobrazení trasování a podrobnosti pro daný testovací případ. Zobrazení Trasování zobrazuje informace, jako je počet tokenů a doba trvání pro tento případ. Rozbalením a výběrem libovolného kroku zobrazíte přehled a vstupy pro tento krok.

Výsledky spuštění vyhodnocení můžete zobrazit také z toku výzvy, který jste otestovali. V části Zobrazení dávkových spuštění vyberte Zobrazit dávkové spuštění , abyste zobrazili seznam dávkových spuštění toku, nebo vyberte Zobrazit nejnovější výstupy dávkového spuštění, abyste viděli výstupy pro nejnovější spuštění.

V seznamu dávkových spuštění vyberte název dávkového spuštění, aby se otevřela stránka toku pro dané spuštění.

Na stránce toku pro spuštění vyhodnocení vyberte Zobrazit výstupy nebo Podrobnosti a zobrazte podrobnosti o toku. Můžete ho také naklonovat a vytvořit nový tok nebo ho nasadit jako online koncový bod.

Na obrazovce Podrobnosti:

Karta Přehled zobrazuje komplexní informace o spuštění, včetně vlastností spuštění, vstupní datové sady, výstupní datové sady, značek a popisu.
Karta Výstupy zobrazuje souhrn výsledků v horní části stránky a tabulku výsledků dávkového spuštění. Pokud vyberete spuštění vyhodnocení vedle možnosti Připojit související výsledky, zobrazí se v tabulce také výsledky spuštění vyhodnocení.
Na kartě Protokoly se zobrazují protokoly spuštění, které můžou být užitečné pro podrobné ladění chyb spuštění. Soubory protokolu si můžete stáhnout.
Na kartě Metriky najdete odkaz na metriky spuštění.
Karta Trasování zobrazuje podrobné informace, jako je počet tokenů a doba trvání každého testovacího případu. Rozbalením a výběrem libovolného kroku zobrazíte přehled a vstupy pro tento krok.
Na kartě Snímek se zobrazí soubory a kód ze spuštění. Zobrazí se definice toku flow.dag.yaml a stáhnete všechny soubory.

Zahájení nového zkušebního kola pro stejné spuštění

Můžete spustit nové zkušební kolo pro výpočet metrik pro dokončené dávkové spuštění bez opětovného spuštění toku. Tento proces šetří náklady na opětovné spouštění toku a je užitečný v následujících scénářích:

Při odeslání dávkového spuštění jste nevybrali metodu vyhodnocení a teď chcete vyhodnotit výkon spuštění.
Použili jste metodu vyhodnocení k výpočtu určité metriky a teď chcete vypočítat jinou metriku.
Předchozí spuštění vyhodnocení se nezdařilo, ale dávkové spuštění úspěšně vygenerovalo výstupy a chcete vyhodnocení zkusit znovu.

Pokud chcete zahájit další kolo vyhodnocení, vyberte Možnost Vyhodnotit v horní části stránky toku dávkového spuštění. Průvodce novým vyhodnocením se otevře na obrazovce Vybrat vyhodnocení . Dokončete nastavení a odešlete nové zkušební spuštění.

Nové spuštění se zobrazí v seznamu spuštění toku výzvy a v seznamu můžete vybrat více než jeden řádek a pak vybrat Vizualizovat výstupy a porovnat výstupy a metriky.

Porovnání historie spuštění vyhodnocení a metrik

Pokud upravíte tok tak, aby se zlepšil jeho výkon, můžete odeslat několik dávkových spuštění a porovnat výkon různých verzí toku. Můžete také porovnat metriky počítané různými metodami vyhodnocení a zjistit, která metoda je pro váš tok vhodnější.

Pokud chcete zkontrolovat historii dávkového spuštění toku, vyberte Zobrazit dávkové spuštění v horní části stránky toku. Můžete vybrat každé spuštění a zkontrolovat podrobnosti. Můžete také vybrat více spuštění a vybrat Vizualizovat výstupy a porovnat metriky a výstupy těchto spuštění.

Vysvětlení předdefinovaných metrik vyhodnocení

Tok výzvy azure Machine Learning nabízí několik předdefinovaných metod vyhodnocení, které vám pomůžou měřit výkon výstupu toku. Každá metoda vyhodnocení vypočítá různé metriky. Následující tabulka popisuje dostupné předdefinované metody vyhodnocení.

Metoda vyhodnocení	Metrický	Popis	Vyžaduje se připojení?	Požadovaný vstup	Hodnoty skóre
Vyhodnocení přesnosti klasifikace	Přesnost	Měří výkon klasifikačního systému porovnáním výstupů se základní pravdou.	No	predikce, základní pravda	V rozsahu [0, 1]
Vyhodnocení základnosti QnA	Uzemnění	Měří způsob, jakým jsou předpokládané odpovědi modelu ve vstupním zdroji. I když jsou odpovědi LLM přesné, jsou neuzemněné, pokud nejsou ověřitelné vůči zdroji.	Ano	otázka, odpověď, kontext (bez základní pravdy)	1 až 5, s 1 = nejhorší a 5 = nejlepší
Vyhodnocení podobnosti gpt QnA	Podobnost GPT	Měří podobnost mezi odpověďmi základní pravdy poskytovanou uživatelem a modelem předpovězenou odpovědí pomocí modelu GPT.	Ano	otázka, odpověď, základní pravda (kontext není potřeba)	1 až 5, s 1 = nejhorší a 5 = nejlepší
Vyhodnocení relevance QnA	Relevance	Měří, jak relevantní jsou predikované odpovědi modelu na otázky.	Ano	otázka, odpověď, kontext (bez základní pravdy)	1 až 5, s 1 = nejhorší a 5 = nejlepší
Hodnocení soudržnosti QnA	Koherence	Měří kvalitu všech vět v předpovězené odpovědi modelu a způsob, jakým se přirozeně vejdou dohromady.	Ano	otázka, odpověď (bez základní pravdy nebo kontextu)	1 až 5, s 1 = nejhorší a 5 = nejlepší
Vyhodnocení fluency QnA	Plynulost	Měří gramatickou a jazykovou správnost předpovězené odpovědi modelu.	Ano	otázka, odpověď (bez základní pravdy nebo kontextu)	1 až 5, s 1 = nejhorší a 5 = nejlepší
Vyhodnocení skóre QnA F1	F1 – skóre	Měří poměr počtu sdílených slov mezi predikcí modelu a základní pravdou.	No	otázka, odpověď, základní pravda (kontext není potřeba)	V rozsahu [0, 1]
Vyhodnocení podobnosti QnA Ada	Podobnost Ada	Vypočítá vkládání na úrovni věty (dokumentu) pomocí rozhraní API pro vkládání Ada pro základní pravdu i predikci a pak vypočítá kosinusovou podobnost mezi nimi (jedno číslo s plovoucí desetinou čárkou).	Ano	otázka, odpověď, základní pravda (kontext není potřeba)	V rozsahu [0, 1]

Zlepšení výkonu toku

Pokud vaše spuštění selže, zkontrolujte výstup a data protokolu a vylaďte případné selhání toku. Pokud chcete tok opravit nebo zvýšit výkon, zkuste upravit výzvu toku, systémovou zprávu, parametry toku nebo logiku toku.

Vytváření efektivních dotazů

Konstrukce výzvy může být obtížná. Další informace o konceptech vytváření výzev najdete v tématu Přehled výzev. Informace o vytvoření výzvy, která vám pomůže dosáhnout vašich cílů, najdete v tématu Techniky přípravy výzvy.

Systémová zpráva

Systémovou zprávu, která se někdy označuje jako metaprompt nebo výzva systému, můžete použít k vedení chování systému AI a ke zlepšení výkonu systému. Další informace o tom, jak zlepšit výkon toku pomocí systémových zpráv, najdete v tématu Podrobné vytváření systémových zpráv.

Zlaté datové sady

Vytvoření kopírovacího objektu, který používá LLM, obvykle zahrnuje vytvoření modelu ve skutečnosti pomocí zdrojových datových sad. Zlatá datová sada pomáhá zajistit, aby LLM poskytovaly nejpřesnější a nejužitečnější odpovědi na dotazy zákazníků.

Zlatá datová sada je kolekce realistických zákaznických otázek a expertně vytvořených odpovědí, které slouží jako nástroj pro kontrolu kvality pro LLMs, které používá váš copilot. Zlaté datové sady se nepoužívají k trénování LLM ani vkládání kontextu do výzvy LLM, ale k vyhodnocení kvality odpovědí, které LLM vygeneruje.

Pokud váš scénář zahrnuje copilot nebo vytváříte vlastní kopírovací objekt, přečtěte si téma Vytváření zlatých datových sad s podrobnými pokyny a osvědčenými postupy.

Sdílet prostřednictvím

Odeslání dávkového spuštění pro vyhodnocení toku

Požadavky

Vytvoření a odeslání zkušebního dávkového spuštění

Zobrazení výsledků vyhodnocení a metrik

Zahájení nového zkušebního kola pro stejné spuštění

Porovnání historie spuštění vyhodnocení a metrik

Vysvětlení předdefinovaných metrik vyhodnocení

Zlepšení výkonu toku

Vytváření efektivních dotazů

Systémová zpráva

Zlaté datové sady

Váš názor

Další materiály

Sdílet prostřednictvím

Odeslání dávkového spuštění pro vyhodnocení toku

Požadavky

Vytvoření a odeslání zkušebního dávkového spuštění

Zobrazení výsledků vyhodnocení a metrik

Zahájení nového zkušebního kola pro stejné spuštění

Porovnání historie spuštění vyhodnocení a metrik

Vysvětlení předdefinovaných metrik vyhodnocení

Zlepšení výkonu toku

Vytváření efektivních dotazů

Systémová zpráva

Zlaté datové sady

Související obsah

Váš názor

Další materiály