Dela via


Modellmått i Azure AI Foundry-portalen

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

I Azure AI Foundry-portalen kan du jämföra riktmärken mellan modeller och datauppsättningar som är tillgängliga i branschen för att avgöra vilken som uppfyller ditt affärsscenario. Du kan komma åt detaljerade prestandamätningsresultat direkt i modellkatalogen. Oavsett om du redan har modeller i åtanke eller om du utforskar modeller, ger benchmarking-data i Azure AI dig möjlighet att fatta välgrundade beslut snabbt och effektivt.

Azure AI har stöd för modellmätning för utvalda modeller som är populära och som används oftast. Modeller som stöds har en benchmark-ikon som ser ut som ett histogram. Du hittar dessa modeller i modellkatalogen genom att använda filtret Samlingar och välja Benchmark-resultat. Du kan sedan använda sökfunktionen för att hitta specifika modeller.

Skärmbild som visar hur du filtrerar efter benchmark-modeller på modellkatalogens startsida.

Modellmått hjälper dig att fatta välgrundade beslut om modellers och datauppsättningars hållbarhet innan du påbörjar något jobb. Riktmärkena är en kuraterad lista över de bäst presterande modellerna för en uppgift, baserat på en omfattande jämförelse av mått för benchmarking. Azure AI Foundry tillhandahåller följande riktmärken för modeller baserat på modellkatalogsamlingar:

  • Prestandamått för stora språkmodeller (LLM: er) och små språkmodeller (SLA)
  • Prestandamått för inbäddningsmodeller

Benchmarking av LLM:er och SLA

Modellmått utvärderar LLM:er och SLI:er i följande kategorier: kvalitet, prestanda och kostnad. Prestandamåtten uppdateras regelbundet när nya mått och datauppsättningar läggs till i befintliga modeller och när nya modeller läggs till i modellkatalogen.

Kvalitet

Azure AI utvärderar kvaliteten på LLM:er och SLA:er i olika mått som är grupperade i två huvudkategorier: noggrannhet och snabbassisterade mått:

För noggrannhetsmått:

Mätvärde Beskrivning
Noggrannhet Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är exact-match i alla fall, förutom den HumanEval-datauppsättning som använder ett pass@1 mått. Exakt matchning jämför modellgenererad text med rätt svar enligt datauppsättningen och rapporterar en om den genererade texten matchar svaret exakt och noll annars. Måttet pass@1 mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell.

För promptassisterade mått:

Mätvärde Beskrivning
Koherens Enhetlighet utvärderar hur väl språkmodellen kan producera utdata som flödar smidigt, läser naturligt och liknar mänskligt språk.
Flyt Fluency utvärderar språkkunskaperna i en generativ AI:s förutsagda svar. Den utvärderar hur väl den genererade texten följer grammatiska regler, syntaktiska strukturer och lämplig användning av vokabulär, vilket resulterar i språkligt korrekta och naturligt klingande svar.
GPTSimilarity GPTSimilarity är ett mått som kvantifierar likheten mellan en grundläggande sannings mening (eller dokument) och förutsägelsedomen som genereras av en AI-modell. Måttet beräknas genom att först beräkna inbäddningar på meningsnivå, med api:et embeddings för både grundsanningen och modellens förutsägelse. Dessa inbäddningar representerar högdimensionella vektorrepresentationer av meningarna och fångar deras semantiska betydelse och kontext.
Grundstötning Grundmått mäter hur väl språkmodellens genererade svar överensstämmer med information från indatakällan.
Relevans Relevans mäter i vilken utsträckning språkmodellens genererade svar är relevanta och direkt relaterade till de aktuella frågorna.

Azure AI visar också kvalitetsindexet på följande sätt:

Index beskrivning
Kvalitetsindex Kvalitetsindex beräknas genom nedskalning av GPTSimilaritet mellan noll och ett, följt av medelvärde med noggrannhetsmått. Högre värden för kvalitetsindex är bättre.

Kvalitetsindexet representerar genomsnittspoängen för det tillämpliga primära måttet (noggrannhet, omskalad GPTSimilaritet) över 15 standarddatauppsättningar och tillhandahålls på en skala från noll till en.

Kvalitetsindex utgör två kategorier av mått:

  • Noggrannhet (till exempel exakt matchning eller pass@k). Sträcker sig från noll till en.
  • Prompt-baserade mått (till exempel GPTSimilarity, groundedness, koherens, flyt och relevans). Sträcker sig från ett till fem.

Stabiliteten i kvalitetsindexvärdet ger en indikator på modellens övergripande kvalitet.

Prestanda

Prestandamått beräknas som en mängd över 14 dagar, baserat på 24 spår (två begäranden per spår) som skickas dagligen med ett intervall på en timme mellan varje spår. Följande standardparametrar används för varje begäran till modellslutpunkten:

Parameter Värde Gäller för
Region USA, östra/USA, östra 2 Serverlösa API:er och Azure OpenAI
Hastighetsgräns för token per minut (TPM) 30k (180 RPM baserat på Azure OpenAI)
N/A (serverlösa API:er)
För Azure OpenAI-modeller är valet tillgängligt för användare med hastighetsgränsintervall baserat på distributionstyp (standard, global, global standard och så vidare.)
För serverlösa API:er är den här inställningen abstrakt.
Antal begäranden Två begäranden i ett spår för varje timme (24 spår per dag) Serverlösa API:er, Azure OpenAI
Antal spår/körningar 14 dagar med 24 spår per dag för 336 körningar Serverlösa API:er, Azure OpenAI
Längd på fråga/kontext Måttlig längd Serverlösa API:er, Azure OpenAI
Antal bearbetade token (måttliga) 80:20-förhållande för indata till utdatatoken, dvs. 800 indatatoken till 200 utdatatoken. Serverlösa API:er, Azure OpenAI
Antal samtidiga begäranden En (begäranden skickas sekventiellt en efter en) Serverlösa API:er, Azure OpenAI
Data Syntetiskt (indataprompter som förberetts från statisk text) Serverlösa API:er, Azure OpenAI
Region USA, östra/USA, östra 2 Serverlösa API:er och Azure OpenAI
Distributionstyp Standard Gäller endast för Azure OpenAI
Strömning Sant Gäller för serverlösa API:er och Azure OpenAI. För modeller som distribueras via hanterad beräkning anger du max_token = 1 för att replikera strömningsscenario, vilket gör det möjligt att beräkna mått som total tid till första token (TTFT) för hanterad beräkning.
Tokenizer Tiktoken-paket (Azure OpenAI)
Krama ansiktsmodell-ID (serverlösa API:er)
Krama ansiktsmodell-ID (Serverlösa API:er i Azure)

Prestanda för LLM:er och SLI:er utvärderas i följande mått:

Mätvärde Beskrivning
Svarstidsmedelvärde Genomsnittlig tid i sekunder för bearbetning av en begäran, beräknad över flera begäranden. För att beräkna det här måttet skickar vi en begäran till slutpunkten varje timme i två veckor och beräknar genomsnittet.
Svarstid P50 50:e percentilvärdet (medianvärdet) för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 50 % av begärandena på x sekunder, där "x" är svarstidsmätningen.
Svarstid P90 90:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 90 % av begärandena på x sekunder, där x är svarstidsmätningen.
Svarstid P95 Det 95:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 95 % av begärandena inom x sekunder, där "x" är svarstidsmätningen.
Svarstid P99 99:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 99 % av begärandena inom x sekunder, där "x" är svarstidsmätningen.
DATAFLÖDE GTPS Genererade token per sekund (GTPS) är antalet utdatatoken som genereras per sekund från den tidpunkt då begäran skickas till slutpunkten.
Dataflödes-TTPS Totalt antal token per sekund (TTPS) är antalet totalt antal token som bearbetas per sekund, inklusive både från indataprompten och genererade utdatatoken.
TTFT för svarstid Total tid till första token (TTFT) är den tid det tar för den första token i svaret att returneras från slutpunkten när strömning är aktiverat.
Tid mellan token Det här måttet är tiden mellan token som tas emot.

Azure AI visar även prestandaindex för svarstid och dataflöde på följande sätt:

Index beskrivning
Index för svarstid Genomsnittlig tid till första token. Lägre värden är bättre.
Dataflödesindex Medelgenererade token per sekund. Högre värden är bättre.

För prestandamått som svarstid eller dataflöde ger tiden till den första token och de genererade token per sekund en bättre övergripande uppfattning om modellens typiska prestanda och beteende. Vi uppdaterar våra prestandanummer med regelbunden takt.

Kostnad

Kostnadsberäkningar är uppskattningar för användning av en LLM- eller SLM-modellslutpunkt som finns på Azure AI-plattformen. Azure AI stöder visning av kostnaden för serverlösa API:er och Azure OpenAI-modeller. Eftersom dessa kostnader kan komma att ändras uppdaterar vi våra kostnadsberäkningar regelbundet.

Kostnaden för LLM:er och SLI:er utvärderas i följande mått:

Mätvärde Beskrivning
Kostnad per indatatoken Kostnad för serverlös API-distribution för 1 miljon indatatoken
Kostnad per utdatatoken Kostnad för serverlös API-distribution för 1 miljon utdatatoken
Beräknad kostnad Kostnad för summan av kostnaden per indatatoken och kostnaden per utdatatoken, med förhållandet 3:1.

Azure AI visar även kostnadsindexet på följande sätt:

Index beskrivning
Kostnadsindex Uppskattad kostnad. Lägre värden är bättre.

Benchmarking av inbäddningsmodeller

Modellmått utvärderar inbäddningsmodeller baserat på kvalitet.

Kvalitet

Kvaliteten på inbäddningsmodeller utvärderas i följande mått:

Mätvärde Beskrivning
Noggrannhet Noggrannhet är andelen korrekta förutsägelser bland det totala antalet bearbetade förutsägelser.
F1-poäng F1 Score är det viktade medelvärdet av precisionen och träffsäkerheten, där det bästa värdet är ett (perfekt precision och träffsäkerhet) och det sämsta är noll.
Genomsnittlig genomsnittlig precision (MAP) MAP utvärderar kvaliteten på rangordnings- och rekommendationssystem. Den mäter både relevansen av föreslagna objekt och hur bra systemet är på att placera mer relevanta objekt högst upp. Värden kan variera från noll till en, och ju högre MAP, desto bättre kan systemet placera relevanta objekt högt i listan.
Normaliserad rabatterad ackumulerad vinst (NDCG) NDCG utvärderar en maskininlärningsalgoritms förmåga att sortera objekt baserat på relevans. Den jämför rangordningen med en idealisk ordning där alla relevanta objekt finns överst i listan, där k är listlängden vid utvärdering av rangordningskvalitet. I våra benchmarks, k=10, som anges av ett mått på ndcg_at_10, vilket innebär att vi tittar på de 10 översta objekten.
Precision Precision mäter modellens förmåga att identifiera instanser av en viss klass korrekt. Precision visar hur ofta en maskininlärningsmodell är korrekt när målklassen förutsägas.
Spearman-korrelation Spearman-korrelation baserat på cosininlikitet beräknas genom att först beräkna cosinnigheten mellan variabler, sedan rangordna dessa poäng och använda rangordningen för att beräkna Spearman-korrelationen.
V-mått V-mått är ett mått som används för att utvärdera klustringskvaliteten. V-mått beräknas som ett harmoniskt medelvärde av homogenitet och fullständighet, vilket säkerställer en balans mellan de två för en meningsfull poäng. Möjliga poäng ligger mellan noll och en, där en är helt komplett etikettering.

Beräkning av poäng

Individuella poäng

Benchmark-resultat kommer från offentliga datauppsättningar som ofta används för utvärdering av språkmodeller. I de flesta fall finns data i GitHub-lagringsplatser som underhålls av skaparna eller kuratorerna av data. Azure AI-utvärderingspipelines laddar ned data från sina ursprungliga källor, extraherar frågor från varje exempelrad, genererar modellsvar och beräknar sedan relevanta noggrannhetsmått.

Fråga konstruktion följer bästa praxis för varje datauppsättning, enligt vad som anges i dokumentet som introducerar datauppsättningen och branschstandarder. I de flesta fall innehåller varje fråga flera bilder, det vill säga flera exempel på fullständiga frågor och svar för att få fram modellen för uppgiften. Utvärderingspipelines skapar bilder genom att ta prover på frågor och svar från en del av de data som hålls borta från utvärderingen.