Srovnávací testy modelů na portálu Azure AI Foundry
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Na portálu Azure AI Foundry můžete porovnat srovnávací testy napříč modely a datovými sadami dostupnými v odvětví a rozhodnout se, která z nich vyhovuje vašemu obchodnímu scénáři. K podrobným výsledkům srovnávacích testů v katalogu modelů můžete získat přímý přístup. Ať už máte modely na mysli nebo zkoumáte modely, srovnávací data v Azure AI vám umožní rychle a efektivně rozhodovat informovaně.
Azure AI podporuje srovnávací testy modelů pro vybrané modely, které jsou oblíbené a nejčastěji používané. Podporované modely mají ikonu srovnávacích testů , která vypadá jako histogram. Tyto modely najdete v katalogu modelů pomocí filtru Kolekce a výběrem výsledků srovnávacího testu. Pomocí funkce vyhledávání pak můžete vyhledat konkrétní modely.
Srovnávací testy modelů vám pomůžou učinit informovaná rozhodnutí o udržitelnosti modelů a datových sad před zahájením jakékoli úlohy. Srovnávací testy jsou kurátorovaným seznamem nejvýkonnějších modelů pro úlohu na základě komplexního porovnání metrik srovnávacích testů. Azure AI Foundry poskytuje pro modely následující srovnávací testy založené na kolekcích katalogu modelů:
- Srovnávací testy napříč velkými jazykovými modely (LLM) a malými jazykovými modely (SLM)
- Srovnávací testy napříč modely vkládání
Srovnávací testy LLM a SLM
Srovnávací testy modelů vyhodnocují LLM a SLM v následujících kategoriích: kvalita, výkon a náklady. Srovnávací testy se pravidelně aktualizují, protože do existujících modelů se přidávají nové metriky a datové sady a nové modely se přidají do katalogu modelů.
Kvalita
Azure AI vyhodnocuje kvalitu LLM a SLM napříč různými metrikami, které jsou seskupené do dvou hlavních kategorií: přesnost a metriky s asistencí výzvy:
Metrika přesnosti:
Metrický | Popis |
---|---|
Přesnost | Skóre přesnosti jsou k dispozici na úrovni datové sady a modelu. Na úrovni datové sady je skóre průměrnou hodnotou metriky přesnosti vypočítané pro všechny příklady v datové sadě. Použitá metrika přesnosti je exact-match ve všech případech s výjimkou datové sady HumanEval , která používá metriku pass@1 . Přesná shoda porovnává model vygenerovaný text se správnou odpovědí v závislosti na datové sadě. Pokud vygenerovaný text odpovídá odpovědi přesně a nule, v opačném případě ho nahlásí. Metrika pass@1 měří podíl řešení modelu, která předávají sadu testů jednotek v úloze generování kódu. Na úrovni modelu je skóre přesnosti průměrem přesnosti přesnosti pro každý model. |
Pro metriky s asistencí výzvy:
Metrický | Popis |
---|---|
Koherence | Soudržnost vyhodnocuje, jak dobře jazykový model dokáže vytvořit výstup, který hladce prochází, čte přirozeně a podobá se jazyku podobnému člověku. |
Plynulost | Plynulost vyhodnocuje jazykovou znalost předpovězené odpovědi generující umělé inteligence. Vyhodnocuje, jak dobře vygenerovaný text dodržuje gramatická pravidla, syntaktické struktury a vhodné použití slovníku, což vede k lingvisticky správným a přirozeným zvukům odpovědí. |
GPTSimilarity | GPTSimilarity je míra, která kvantifikuje podobnost mezi základní pravdivou větou (nebo dokumentem) a prediktivní větou vygenerovanou modelem AI. Metrika se počítá prvním výpočetním vkládáním na úrovni věty pomocí rozhraní API pro vkládání pro základní pravdu i predikci modelu. Tyto vložené objekty představují reprezentace vět s vysokým rozměrem vektorů, které zachycují jejich sémantický význam a kontext. |
Uzemnění | Zemednost měří, jak dobře vygenerované odpovědi jazykového modelu odpovídají informacím ze vstupního zdroje. |
Relevance | Relevance měří rozsah, v jakém jsou odpovědi vygenerované jazykovým modelem relevantní a přímo související s danými otázkami. |
Azure AI také zobrazí index kvality takto:
Index | Popis |
---|---|
Index kvality | Index kvality se počítá vertikálním snížením kapacity GPTSimilarity mezi nulou a jednou, za kterou následuje průměrování s metrikami přesnosti. Vyšší hodnoty indexu kvality jsou lepší. |
Index kvality představuje průměrné skóre příslušné primární metriky (přesnost, změna měřítka GPTSimilarity) nad 15 standardních datových sad a poskytuje se ve škále nula na jednu.
Index kvality představuje dvě kategorie metrik:
- Přesnost (například přesná shoda nebo
pass@k
). Pohybuje se od nuly do jedné. - Metriky založené na výzev (například GPTSimilarity, uzemnění, soudržnost, plynulost a relevance). Pohybuje se od jednoho do pěti.
Stabilita hodnoty indexu kvality poskytuje ukazatel celkové kvality modelu.
Výkon
Metriky výkonu se počítají jako agregace za 14 dnů na základě 24 tras (dva požadavky na trasu) odesílaných denně s hodinovým intervalem mezi každou trasou. Pro každý požadavek na koncový bod modelu se používají následující výchozí parametry:
Parametr | Hodnota | Platí pro |
---|---|---|
Oblast | USA – východ /USA – východ 2 | Bezserverová rozhraní API a Azure OpenAI |
Limit rychlosti tokenů za minutu (TPM) | 30 tisíc (180 RPM na základě Azure OpenAI) Není k dispozici (bezserverová rozhraní API) |
U modelů Azure OpenAI je výběr dostupný pro uživatele s rozsahy omezení rychlosti na základě typu nasazení (standard, globální, globální standard atd.). U bezserverových rozhraní API se toto nastavení abstrahuje. |
Počet žádostí | Dva požadavky na trasu za každou hodinu (24 tras za den) | Bezserverová rozhraní API, Azure OpenAI |
Počet tras/běhů | 14 dní s 24 stopami za den pro 336 běhů | Bezserverová rozhraní API, Azure OpenAI |
Délka výzvy nebo kontextu | Střední délka | Bezserverová rozhraní API, Azure OpenAI |
Počet zpracovaných tokenů (střední) | Poměr 80:20 pro vstupní a výstupní tokeny, tj. 800 vstupních tokenů až 200 výstupních tokenů. | Bezserverová rozhraní API, Azure OpenAI |
Počet souběžných požadavků | Jedna (požadavky se odesílají postupně po druhém) | Bezserverová rozhraní API, Azure OpenAI |
Data | Syntetické (vstupní výzvy připravené ze statického textu) | Bezserverová rozhraní API, Azure OpenAI |
Oblast | USA – východ /USA – východ 2 | Bezserverová rozhraní API a Azure OpenAI |
Typ nasazení | Standard | Platí jenom pro Azure OpenAI |
Streamování | True | Platí pro bezserverová rozhraní API a Azure OpenAI. U modelů nasazených prostřednictvím spravovaných výpočetních prostředků nastavte max_token = 1 pro replikaci scénáře streamování, který umožňuje vypočítat metriky, jako je celkový čas na první token (TTFT) pro spravované výpočetní prostředky. |
Tokenizátor | Balíček Tiktoken (Azure OpenAI) Id modelu rozpoznávání tváře (bezserverová rozhraní API) |
Hugging Face model ID (bezserverová rozhraní API Azure) |
Výkon LLM a SLM se posuzuje v následujících metrikách:
Metrický | Popis |
---|---|
Střední hodnota latence | Průměrná doba v sekundách potřebná ke zpracování požadavku vypočítaná přes více požadavků Abychom tuto metriku mohli vypočítat, pošleme požadavek na koncový bod každou hodinu, dva týdny a vypočítáme průměr. |
Latence P50 | 50. percentilová hodnota (medián) latence (doba potřebná mezi požadavkem a přijetí celé odpovědi s úspěšným kódem). Když například odešleme požadavek do koncového bodu, za x sekund se dokončí 50 % požadavků s měřením latence x. |
Latence P90 | 90. percentilová hodnota latence (doba potřebná mezi požadavkem a přijetí celé odpovědi s úspěšným kódem) Když například odešleme požadavek do koncového bodu, dokončí se 90 % požadavků v x sekundách, přičemž hodnota x je měření latence. |
Latence P95 | 95. percentilová hodnota latence (doba potřebná mezi požadavkem a přijetí celé odpovědi s úspěšným kódem). Když například odešleme požadavek do koncového bodu, 95 % požadavků se dokončí v x sekundách, přičemž hodnota x je měření latence. |
Latence P99 | 99. percentilová hodnota latence (doba potřebná mezi požadavkem a přijetí celé odpovědi s úspěšným kódem) Když například odešleme požadavek do koncového bodu, dokončí se 99 % požadavků za x sekund, přičemž hodnota x je měření latence. |
Propustnost GTPS | Generované tokeny za sekundu (GTPS) jsou počet výstupních tokenů, které se generují za sekundu od okamžiku odeslání požadavku do koncového bodu. |
TTPS propustnosti | Celkový počet tokenů za sekundu (TTPS) je počet zpracovaných tokenů za sekundu, včetně vstupní výzvy a vygenerovaných výstupních tokenů. |
Latence TTFT | Celkový čas na první token (TTFT) je doba potřebná pro první token v odpovědi, která se vrátí z koncového bodu při povolení streamování. |
Čas mezi tokeny | Tato metrika je čas mezi přijatými tokeny. |
Azure AI také zobrazuje indexy výkonu pro latenci a propustnost následujícím způsobem:
Index | Popis |
---|---|
Index latence | Střední doba k prvnímu tokenu. Nižší hodnoty jsou lepší. |
Index propustnosti | Střední vygenerované tokeny za sekundu Vyšší hodnoty jsou lepší. |
V případě metrik výkonu, jako je latence nebo propustnost, poskytuje čas prvního tokenu a vygenerované tokeny za sekundu lepší představu o typickém výkonu a chování modelu. Čísla výkonu aktualizujeme v pravidelných intervalech.
Náklady
Výpočty nákladů jsou odhady pro použití koncového bodu modelu LLM nebo SLM hostovaného na platformě Azure AI. Azure AI podporuje zobrazování nákladů na bezserverová rozhraní API a modely Azure OpenAI. Vzhledem k tomu, že se tyto náklady můžou změnit, aktualizujeme naše výpočty nákladů v pravidelných intervalech.
Náklady na LLM a SLM se posuzují v následujících metrikách:
Metrický | Popis |
---|---|
Náklady na vstupní tokeny | Náklady na nasazení bezserverového rozhraní API pro 1 milion vstupních tokenů |
Náklady na výstupní tokeny | Náklady na nasazení bezserverového rozhraní API pro 1 milion výstupních tokenů |
Odhadované náklady | Náklady na součet nákladů na vstupní tokeny a náklady na výstupní tokeny s poměrem 3:1 |
Azure AI také zobrazí index nákladů následujícím způsobem:
Index | Popis |
---|---|
Index nákladů | Odhadované náklady Nižší hodnoty jsou lepší. |
Srovnávací testy vložených modelů
Srovnávací testy modelů vyhodnocují vložené modely na základě kvality.
Kvalita
Kvalita vložených modelů se posuzuje v následujících metrikách:
Metrický | Popis |
---|---|
Přesnost | Přesnost je podíl správných předpovědí mezi celkovým počtem zpracovaných predikcí. |
F1 Score | F1 Score je vážený průměr přesnosti a úplnosti, kde nejlepší hodnota je jedna (dokonalá přesnost a úplnost) a nejhorší je nula. |
Průměrná průměrná přesnost (MAP) | MAP vyhodnocuje kvalitu systémů hodnocení a doporučovačů. Měří význam navrhovaných položek a způsob, jakým systém umísťuje do horní části relevantnější položky. Hodnoty můžou být v rozsahu od nuly do jedné a čím vyšší je mapa, tím lépe systém umísťuje do seznamu relevantní položky. |
Normalizovaný zvýhodněný kumulativní zisk (NDCG) | NDCG vyhodnocuje schopnost algoritmu strojového učení řadit položky na základě relevance. Porovnává pořadí s ideálním pořadím, kde jsou všechny relevantní položky v horní části seznamu, kde k je délka seznamu při vyhodnocování kvality řazení. V našich srovnávacích testech k=10 označených metrikou ndcg_at_10 , což znamená, že se podíváme na prvních 10 položek. |
Počet deset. míst | Přesnost měří schopnost modelu správně identifikovat instance konkrétní třídy. Přesnost ukazuje, jak často je model strojového učení správný při předpovídání cílové třídy. |
Spearmanova korelace | Spearmanova korelace založená na kosinusové podobnosti se vypočítá prvním výpočtem kosinus podobnosti mezi proměnnými a následným hodnocením těchto skóre a použitím pořadí k výpočtu korelace Spearman. |
Míra V | Míra V je metrika použitá k vyhodnocení kvality clusteringu. Míra V se počítá jako harmonický průměr homogenity a úplnosti a zajišťuje rovnováhu mezi těmito dvěma hodnotami pro smysluplné skóre. Možné skóre leží mezi nulou a jedním, přičemž jedno je dokonale kompletní popisování. |
Výpočet skóre
Individuální skóre
Výsledky srovnávacích testů pocházejí z veřejných datových sad, které se běžně používají pro vyhodnocení jazykového modelu. Ve většině případů se data hostují v úložištích GitHubu, která spravují tvůrci nebo kurátoré dat. Kanály vyhodnocení Azure AI stahují data z původních zdrojů, extrahují výzvy z každého ukázkového řádku, generují odpovědi na model a pak počítají relevantní metriky přesnosti.
Konstrukce výzvy dodržuje osvědčené postupy pro každou datovou sadu, jak je uvedeno v dokumentu, který představuje datové sady a oborové standardy. Ve většiněpřípadůch Kanály vyhodnocení vytvářejí snímky vzorkováním otázek a odpovědí z části dat, která se vyhodnotují.