Modell-Benchmarks in Azure KI Studio
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In Azure KI Studio können Sie Benchmarkvergleiche für die in der Branche verfügbaren Modelle und Datasets durchführen, um zu beurteilen, welches Modell Ihrem Geschäftsszenario entspricht. Sie können direkt auf detaillierte Benchmarkingergebnisse im Modellkatalog zugreifen. Ganz gleich, ob Sie bereits Modelle im Blick haben oder Modelle untersuchen: Mit den Benchmarkingdaten in Azure KI können Sie fundierte Entscheidungen schnell und effizient treffen.
Azure KI unterstützt Modellbenchmarking für ausgewählte Modelle, die beliebt sind und am häufigsten verwendet werden. Unterstützte Modelle weisen ein Benchmark-Symbol auf, das wie ein Histogramm aussieht. Sie können diese Modelle im Modellkatalog finden, indem Sie den Filter Sammlungen verwenden und Benchmarkergebnisse auswählen. Anschließend können Sie die Suchfunktion verwenden, um bestimmte Modelle zu finden.
Modell-Benchmarks helfen Ihnen, fundierte Entscheidungen über die Nachhaltigkeit von Modellen und Datasets zu treffen, bevor Sie einen Auftrag initiieren. Die Benchmarks sind eine kuratierte Liste der leistungsstärksten Modelle für eine Aufgabe, basierend auf einem umfassenden Vergleich der Benchmarkmetriken. Azure KI Studio bietet die folgenden Benchmarks für Modelle basierend auf Modellkatalogsammlungen:
- Benchmarks für große Sprachmodelle (LLMs) und kleine Sprachmodelle (SLMs)
- Benchmarks für alle Einbettungsmodelle
Benchmarking von LLMs und SLMs
Modell-Benchmarks bewerten LLMs und SLMs in den folgenden Kategorien: Qualität, Leistung und Kosten. Die Benchmarks werden regelmäßig aktualisiert, wenn neue Metriken und Datasets zu vorhandenen Modellen hinzugefügt werden, und wenn dem Modellkatalog neue Modelle hinzugefügt werden.
Quality
Azure KI bewertet die Qualität von LLMs und SLMs in verschiedenen Metriken, die in zwei Hauptkategorien gruppiert sind: Genauigkeitsmetriken und promptgestützte Metriken:
Für Genauigkeitsmetriken:
Metrik | Beschreibung |
---|---|
Genauigkeit | Genauigkeitsbewertungen sind im Dataset und auf Modellebenen verfügbar. Auf Datasetebene ist die Bewertung der Mittelwert einer Genauigkeitsmetrik, die über alle Beispiele im Dataset berechnet wird. Die verwendete Genauigkeitsmetrik ist in allen Fällen exact-match , mit Ausnahme des HumanEval-Datasets, das eine pass@1 -Metrik verwendet. Die exakte Übereinstimmung vergleicht den vom Modell generierten Text mit der richtigen Antwort gemäß dem Dataset und meldet 1, wenn der generierte Text genau mit der Antwort übereinstimmt, und ansonsten 0. Die Metrik pass@1 misst den Anteil der Modelllösungen, die eine Reihe von Komponententests in einer Codegenerierungsaufgabe bestehen. Auf Modellebene ist die Genauigkeitsbewertung der Mittelwert der Genauigkeit auf Datasetebene für jedes Modell. |
Für promptgestützte Metriken:
Metrik | Beschreibung |
---|---|
Kohärenz | Kohärenz bewertet, wie gut das Sprachmodell eine Ausgabe erzeugen kann, die sich flüssig und natürlich liest und der menschlichen Sprache ähnelt. |
Geläufigkeit | Geläufigkeit bewertet die Sprachkompetenz der vorhergesagten Antwort einer generativen KI. Sie bewertet, wie gut der generierte Text grammatikalische Regeln, syntaktische Strukturen und die angemessene Verwendung des Vokabulars einhält, was zu sprachlich korrekten und natürlich klingenden Antworten führt. |
GPTSimilarity | GPTSimilarity ist ein Measure, das die Ähnlichkeit zwischen einem Ground-Truth-Satz (oder Dokument) und dem Vorhersagesatz, der von einem KI-Modell generiert wird, quantifiziert. Die Metrik wird berechnet, indem zunächst Einbettungen auf Satzebene unter Verwendung der Einbettungs-API sowohl für die Ground-Truth-Satz als auch für die Vorhersage des Modells berechnet werden. Diese Einbettungen stellen hochdimensionale Vektordarstellungen der Sätze dar, die ihre semantische Bedeutung und ihren Kontext erfassen. |
Quellenübereinstimmung | Quellenübereinstimmung misst, wie gut die vom Sprachmodell generierten Antworten mit den Informationen aus der Eingabequelle zusammenpassen. |
Relevanz | Relevanz misst das Ausmaß, in dem die vom Sprachmodell generierten Antworten relevant sind und in direktem Zusammenhang mit den vorgegebenen Fragen stehen. |
Azure KI zeigt auch den Qualitätsindex wie folgt an:
Index | Beschreibung |
---|---|
Qualitätsindex | Der Qualitätsindex wird berechnet, indem die GPTSimilarity zwischen 0 und 1 herunterskaliert wird, gefolgt von einer Durchschnittswertberechnung mit Genauigkeitsmetriken. Höhere Werte des Qualitätsindexes sind besser. |
Der Qualitätsindex stellt den durchschnittlichen Score der anwendbaren primären Metrik (Genauigkeit, neu skalierte GPTSimilarity) über 15 Standarddatasets dar und wird auf einer Skala von 0 bis 1 angegeben.
Der Qualitätsindex stellt zwei Kategorien von Metriken dar:
- Genauigkeit (z. B. exakte Übereinstimmung oder
pass@k
): bewegt sich zwischen 0 und 1 - Promptbasierte Metriken (z. B. GPTSimilarity, Groundedness, Kohärenz, Sprachfluss und Relevanz): bewegt sich zwischen 1 und 5
Die Stabilität des Qualitätsindexwerts liefert einen Indikator für die Gesamtqualität des Modells.
Leistung
Leistungsmetriken werden als Aggregat über 14 Tage berechnet, basierend auf 24 Trails (zwei Anforderungen pro Trail), die täglich mit einem einstündigen Intervall zwischen jedem Trail gesendet werden. Die folgenden Standardparameter werden für jede Anforderung an den Modellendpunkt verwendet:
Parameter | Wert | Gilt für |
---|---|---|
Region | „USA, Osten“/„USA, Osten 2“ | Serverlose APIs und Azure OpenAI |
Ratenbegrenzung für Token pro Minute (TPM) | 30.000 (180 RPM basierend auf Azure OpenAI) Nicht verfügbar (serverlose APIs) |
Bei Azure OpenAI-Modellen steht die Auswahl für Benutzer mit Ratenbegrenzungsbereichen zur Verfügung, die auf dem Bereitstellungstyp (Standard, global, globaler Standard usw.) basieren. Bei serverlosen APIs wird diese Einstellung abstrahiert. |
Anzahl von Anforderungen | Zwei Anforderungen pro Stunde in einem Trail (24 Trails pro Tag) | Serverlose APIs, Azure OpenAI |
Anzahl der Trails/Ausführungen | 14 Tage mit 24 Trails pro Tag für 336 Ausführungen | Serverlose APIs, Azure OpenAI |
Prompt-/Kontextlänge | Moderate Länge | Serverlose APIs, Azure OpenAI |
Anzahl der verarbeiteten Token (moderat) | 80:20-Verhältnis für Eingabe- und Ausgabetoken, d. h. 800 Eingabetoken auf 200 Ausgabetoken | Serverlose APIs, Azure OpenAI |
Anzahl gleichzeitiger Anfragen | Eine (Anforderungen werden sequenziell nacheinander gesendet) | Serverlose APIs, Azure OpenAI |
Daten | Synthetische (Eingabeprompts aus statischem Text) | Serverlose APIs, Azure OpenAI |
Region | „USA, Osten“/„USA, Osten 2“ | Serverlose APIs und Azure OpenAI |
Bereitstellungstyp | Standard | Gilt nur für Azure OpenAI |
Streaming | True | Gilt für serverlose APIs und Azure OpenAI Legen Sie für Modelle, die über verwaltete Computeressourcen bereitgestellt werden, legen Sie „max_token = 1“ fest, um das Streamingszenario zu replizieren, das die Berechnung von Metriken wie der Gesamtzeit für das erste Token (Total Time to First Token, TTFT) für die verwaltete Computeressource ermöglicht. |
Tokenizer | Tiktoken-Paket (Azure OpenAI) Hugging Face-Modell-ID (serverlose APIs) |
Hugging Face-Modell-ID (serverlose Azure-APIs) |
Die Leistung von LLMs und SLMs wird in den folgenden Metriken bewertet:
Metrik | Beschreibung |
---|---|
Latenzmittelwert | Durchschnittliche Zeit in Sekunden für die Verarbeitung einer Anforderung, berechnet über mehrere Anforderungen. Um diese Metrik zu berechnen, senden wir zwei Wochen lang jede Stunde eine Anforderung an den Endpunkt und berechnen den Mittelwert. |
Latenz P50 | Wert des 50. Perzentils (Median) der Latenz (die Zeit zwischen der Anforderung und dem Zeitpunkt, zu dem die gesamte Antwort mit einem Erfolgscode empfangen wird). Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 50 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist. |
Latenz P90 | Wert des 90. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Empfang der gesamten Antwort mit einem Erfolgscode). Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 90 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist. |
Latenz P95 | Wert des 95. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Zeitpunkt, zu dem die gesamte Antwort mit einem Erfolgscode empfangen wird). Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 95 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist. |
Latenz P99 | Wert des 99. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Empfang der gesamten Antwort mit einem Erfolgscode). Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 99 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist. |
GTPS-Durchsatz | Die generierten Token pro Sekunde (Generated Tokens per Second, GTPS) sind die Anzahl der Ausgabetoken, die pro Sekunde generiert werden, wenn die Anforderung an den Endpunkt gesendet wird. |
TTPS-Durchsatz | Die Gesamtzahl der Token pro Sekunde (Total Tokens per Second, TTPS) ist die Anzahl der insgesamt verarbeiteten Token pro Sekunde, einschließlich derjenigen aus dem Eingabeprompt als auch aus generierten Ausgabetoken. |
TTFT-Latenz | Die Gesamtzeit für das erste Token (Total Time to First Token, TTFT) ist die Zeit für das erste Token in der Antwort, die beim Aktivieren des Streamings vom Endpunkt zurückgegeben wird. |
Zeit zwischen Token | Diese Metrik ist die Zeit zwischen empfangenen Token. |
Azure KI zeigt auch Leistungsindizes für Latenz und Durchsatz wie folgt an:
Index | Beschreibung |
---|---|
Latenzindex | Mittlere Zeit für das erste Token. Niedrigere Werte sind besser. |
Durchsatzindex | Mittelwert der generierten Token pro Sekunde. Höhere Werte sind besser. |
Für Leistungsmetriken wie Latenz oder Durchsatz geben die Zeit für das erste Token und die generierten Token pro Sekunde einen besseren Überblick über die typische Leistung und das Verhalten des Modells. Wir aktualisieren unsere Leistungsnummern in regelmäßigen Abständen.
Kosten
Kostenberechnungen sind Schätzungen für die Verwendung eines LLM- oder SLM-Modellendpunkts, der auf der Azure KI-Plattform gehostet wird. Azure KI unterstützt die Anzeige der Kosten für serverlose APIs und Azure OpenAI-Modelle. Da Änderungen an diesen Kosten vorbehalten sind, aktualisieren wir unsere Kostenberechnungen regelmäßig.
Die Kosten von LLMs und SLMs wird in den folgenden Metriken bewertet:
Metrik | Beschreibung |
---|---|
Kosten pro Eingabetoken | Kosten für serverlose API-Bereitstellung für 1 Million Eingabetoken |
Kosten pro Ausgabetoken | Kosten für serverlose API-Bereitstellung für 1 Million Ausgabetoken |
Geschätzte Kosten | Kosten für die Summe der Kosten pro Eingabetoken und Kosten pro Ausgabetoken mit einem Verhältnis von 3:1. |
Azure KI zeigt auch den Kostenindex wie folgt an:
Index | Beschreibung |
---|---|
Kostenindex | Geschätzte Kosten. Niedrigere Werte sind besser. |
Benchmarking von Einbettungsmodellen
Modell-Benchmarks bewerten Einbettungsmodelle basierend auf Qualität.
Quality
Die Qualität der Einbettungsmodelle wird in den folgenden Metriken bewertet:
Metrik | Beschreibung |
---|---|
Genauigkeit | Genauigkeit ist der Anteil der korrekten Vorhersagen an der Gesamtanzahl der verarbeiteten Vorhersagen. |
F1-Bewertung | Der F1-Score ist der gewichtete Mittelwert von Präzision und Abruf, wobei der beste Wert 1 ist (perfekte Präzision und perfekter Abruf) und der schlechteste 0. |
Mean Average Precision (MAP) | MAP wertet die Qualität der Ranking- und Empfehlungssysteme aus. Gemessen werden sowohl die Relevanz vorgeschlagener Elemente als auch, wie gut das System relevantere Elemente oben platziert. Werte können von 0 bis 1 reichen, und je höher die MAP ist, desto besser kann das System relevante Elemente oben in der Liste platzieren. |
Normalized Discounted Cumulative Gain (NDCG) | NDCG wertet die Fähigkeit eines Machine Learning-Algorithmus aus, Elemente basierend auf Relevanz zu sortieren. Dabei werden Rangfolgen mit einer idealen Reihenfolge verglichen, in der alle relevanten Elemente am Anfang der Liste stehen, wobei k die Listenlänge bei der Bewertung der Rangfolgequalität ist. In unseren Benchmarks wird k=10 durch die Metrik ndcg_at_10 angegeben und bedeutet, dass wir die obersten 10 Elemente betrachten. |
Präzision | Präzision misst die Fähigkeit des Modells, Instanzen einer bestimmten Klasse richtig zu identifizieren. Die Genauigkeit zeigt, wie oft ein Machine Learning-Modell richtig liegt, wenn es die Zielklasse vorhersagt. |
Spearman-Korrelation | Die Spearman-Korrelation basierend auf der Kosinusähnlichkeit wird berechnet, indem zuerst die Kosinusähnlichkeit zwischen Variablen berechnet wird, dann diesen Scores ein Rang zugewiesen wird und die Rangfolgen verwendet werden, um die Spearman-Korrelation zu berechnen. |
V-Measure | V-Measure ist eine Metrik, die verwendet wird, um die Clusteringqualität auszuwerten. V-Measure wird als harmonischer Mittelwert der Homogenität und Vollständigkeit berechnet, um ein Gleichgewicht zwischen den beiden für einen aussagekräftigen Score zu gewährleisten. Mögliche Scores liegen zwischen 0 und 1, wobei 1 einer vollständigen Beschriftung entspricht. |
Berechnung von Scores
Einzelscores
Die Benchmarkergebnisse stammen aus öffentlichen Datasets, die häufig für die Auswertung von Sprachmodellen verwendet werden. In den meisten Fällen werden die Daten in GitHub-Repositorys gehostet, die von den Erstellern oder Kuratoren der Daten verwaltet werden. Azure KI-Auswertungspipelines laden Daten aus ihren ursprünglichen Quellen herunter, extrahieren Prompts aus jeder Beispielzeile, generieren Modellantworten und berechnen dann relevante Genauigkeitsmetriken.
Der Aufbau von Prompts folgt den bewährten Methoden für jedes Dataset, die durch das Dokument definiert werden, in dem die Dataset- und Industriestandards eingeführt werden. In den meisten Fällen enthält jeder Prompt mehrere Shots, also Beispiele für vollständige Fragen und Antworten, um das Modell für die Aufgabe vorzubereiten. Die Auswertungspipelines erstellen Shots durch das Sampling von Fragen und Antworten aus einem Teil der Daten, die aus der Auswertung herausgehalten werden.