Teilen über


Azure KI-Modellinferenz verfügbare Modelle

Azure KI-Modellinferenz in Azure AI Foundry bietet Ihnen Zugriff auf führende Modelle in Azure KI, damit Sie sie als APIs nutzen können, ohne sie in Ihrer Infrastruktur zu hosten.

Tipp

DeepSeek-R1 (Vorschau) ist für die Bereitstellung als Serverloser API-Endpunkt verfügbar.

Animation: Abschnitt „Modellkatalog“ in Azure KI Studio und verfügbare Modelle

Die Modellverfügbarkeit variiert je nach Modellanbieter, Bereitstellungs-SKU und Cloud. Alle in Azure KI-Modellinferenz verfügbaren Modelle unterstützen den Bereitstellungstyp Globaler Standard, der globale Kapazität verwendet, um den Durchsatz zu gewährleisten. Azure OpenAI-Modelle unterstützen auch regionale Bereitstellungen und Sovereign Clouds: Azure Government, Azure Deutschland und Azure China 21Vianet.

Unter Azure OpenAI Service-Modelle finden Sie weitere Informationen zu spezifischen Bereitstellungsfunktionen für Azure OpenAI.

Tipp

Der Azure KI-Modellkatalog bietet eine größere Auswahl an Modellen von einer größeren Anzahl von Anbietern. Diese Modelle müssen jedoch möglicherweise in Ihrer Infrastruktur gehostet werden, und es müssen ein KI-Hub und ein Projekt erstellt werden. Der Azure KI-Modelldienst bietet eine Möglichkeit, die Modelle als APIs zu nutzen, ohne sie in Ihrer Infrastruktur zu hosten. Die Abrechnung erfolgt nach dem Prinzip der nutzungsbasierten Bezahlung. Erfahren Sie mehr über den Azure KI-Modellkatalog.

Im Modellkatalog für das Azure AI Foundry-Portal werden alle für Sie verfügbaren Modelle angezeigt.

AI21 Labs

Jamba-Familienmodelle sind auf Mamba basierende, produktionstaugliche Large Language Models (LLM) von AI21, die die hybride Mamba-Transformer-Architektur von AI21 nutzen. Es ist eine anweisungsoptimierte Version des hybriden strukturierten Zustandsraummodells (State Space Model, SSM) des Jamba-Transformer-Modells von AI21. Im Hinblick auf Qualität und Leistung sind die Jamba-Familienmodelle auf die zuverlässige kommerzielle Nutzung ausgerichtet.

Modell type Tarif Capabilities
AI21-Jamba-1.5-Mini chat-completion Globaler Standard - Eingabe: Text (262.144 Token)
- Ausgabe: (4.096 Token)
- Sprachen:en, fr, es, pt, de, ar und he
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
AI21-Jamba-1.5-Large chat-completion Globaler Standard - Eingabe: Text (262.144 Token)
- Ausgabe: (4.096 Token)
- Sprachen:en, fr, es, pt, de, ar und he
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Azure OpenAI

Azure OpenAI Service bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Preispunkten. Zu diesen Modellen gehören folgende:

  • Modernste Modelle, die für die Behandlung von Schlussfolgerungs- und Problemlösungsaufgaben mit erhöhtem Fokus und mehr Funktionalität konzipiert sind
  • Modelle, die natürliche Sprache und Code verstehen und generieren können
  • Modelle, die Sprache transkribieren und in Text übersetzen können
Modell type Tarif Capabilities
o1 chat-completion Globaler Standard - Eingabe: Text und Bild (200.000 Token)
- Ausgabe: Text (100.000 Token)
- Sprachen:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr und te
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
o1-preview chat-completion Globaler Standard
Standard
- Eingabe: Text (128.000 Token)
- Ausgabe: (32.768 Token)
- Sprachen:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr und te
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
o1-mini chat-completion Globaler Standard
Standard
- Eingabe: Text (128.000 Token)
- Ausgabe: (65.536 Token)
- Sprachen:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr und te
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
gpt-4o-realtime-preview real-time Globaler Standard - Eingabe: Steuerelement, Text und Audio (131.072 Token)
- Ausgabe: Text und Audio (16.384 Token)
- Sprachen: en
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
gpt-4o chat-completion Globaler Standard
Standard
Batch
Bereitgestellt
Global bereitgestellt
Datenzone
- Eingabe: Text und Bild (131.072 Token)
- Ausgabe: Text (16.384 Token)
- Sprachen:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr und te
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
gpt-4o-mini chat-completion Globaler Standard
Standard
Batch
Bereitgestellt
Global bereitgestellt
Datenzone
- Eingabe: Text, Bild und Audio (131.072 Token)
- Ausgabe: (16.384 Token)
- Sprachen:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr und te
- Toolaufrufe: Ja
- Antwortformate: Text, JSON, strukturierte Ausgaben
text-embedding-3-large embeddings Globaler Standard
Standard
Bereitgestellt
Global bereitgestellt
- Eingabe: Text (8.191 Token)
- Ausgabe: Vektor (3.072 Dim.)
- Sprachen:en
text-embedding-3-small embeddings Globaler Standard
Standard
Bereitgestellt
Global bereitgestellt
- Eingabe: Text (8.191 Token)
- Ausgabe: Vektor (1.536 Dim.)
- Sprachen:en

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Cohere

Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, einschließlich Chatvervollständigungen und Einbettungen. Cohere-Modelle sind für verschiedene Anwendungsfälle optimiert, die Gründe, Zusammenfassungen und Fragen und Antworten umfassen.

Modell type Tarif Capabilities
Cohere-embed-v3-english embeddings
image-embeddings
Globaler Standard - Eingabe: Text (512 Token)
- Ausgabe: Vektor (1.024 Dim.)
- Sprachen: en
Cohere-embed-v3-multilingual embeddings
image-embeddings
Globaler Standard - Eingabe: Text (512 Token)
- Ausgabe: Vektor (1.024 Dim.)
- Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
Cohere-command-r-plus-08-2024 chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Cohere-command-r-08-2024 chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Cohere-command-r-plus chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Cohere-command-r chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Core42

Core42 umfasst autoregressive bilinguale LLMs für Arabisch und Englisch mit modernsten Funktionen in Arabisch.

Modell type Tarif Capabilities
jais-30b-chat chat-completion Globaler Standard - Eingabe: Text (8.192 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en und ar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Meta

Meta Llama-Modelle und -Tools sind eine Sammlung vortrainierter und optimierter Text- und Bildbegründungsmodelle mit generativer KI. Die Palette der Meta-Modelle umfasst Folgendes:

  • Kleine Sprachmodelle (Small Language Models, SLMs) wie 1B- und 3B-Basismodelle und -Instruct-Modelle für Rückschlüsse auf dem Gerät und am Edge
  • Mittelgroße Large Language Models (LLMs) wie 7B-, 8B- und 70B-Basismodelle und -Instruct-Modelle
  • Hochleistungsfähige Modelle wie Meta Llama 3.1 405B Instruct für synthetische Datengenerierung und Destillation
Modell type Tarif Capabilities
Llama-3.3-70B-Instruct chat-completion Globaler Standard - Eingabe: Text (128.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen: en, de, fr, it, pt, hi, es und th
- Toolaufrufe: Nein*
- Antwortformate: Text
Llama-3.2-11B-Vision-Instruct chat-completion Globaler Standard - Eingabe: Text und Bild (128.000 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en
- Toolaufrufe: Nein*
- Antwortformate: Text
Llama-3.2-90B-Vision-Instruct chat-completion Globaler Standard - Eingabe: Text und Bild (128.000 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en
- Toolaufrufe: Nein*
- Antwortformate: Text
Meta-Llama-3.1-405B-Instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en, de, fr, it, pt, hi, es und th
- Toolaufrufe: Nein*
- Antwortformate: Text
Meta-Llama-3-8B-Instruct chat-completion Globaler Standard - Eingabe: Text (8.192 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en
- Toolaufrufe: Nein*
- Antwortformate: Text
Meta-Llama-3.1-70B-Instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en, de, fr, it, pt, hi, es und th
- Toolaufrufe: Nein*
- Antwortformate: Text
Meta-Llama-3.1-8B-Instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en, de, fr, it, pt, hi, es und th
- Toolaufrufe: Nein*
- Antwortformate: Text
Meta-Llama-3-70B-Instruct chat-completion Globaler Standard - Eingabe: Text (8.192 Token)
- Ausgabe: (8.192 Token)
- Sprachen: en
- Toolaufrufe: Nein*
- Antwortformate: Text

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Microsoft

Die Phi-Familie enthält ind einfache, hochmoderne offene Modelle. Diese Modelle wurden mit Phi-3-Datasets trainiert. Die Datasets enthalten sowohl synthetische Daten als auch die gefilterten, öffentlich verfügbaren Websitedaten, wobei der Schwerpunkt auf qualitativ hochwertigen und für Schlussfolgerungen gut geeigneten Eigenschaften liegt. Das Modell wurde einem strengen Verbesserungsprozess unterzogen, der eine überwachte Optimierung, eine proximale Richtlinienoptimierung und eine direkte Präferenzoptimierung umfasste, um eine präzise Einhaltung der Anweisungen und zuverlässige Sicherheitsmaßnahmen zu gewährleisten.

Modell type Tarif Capabilities
Phi-3-mini-128k-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3-mini-4k-instruct chat-completion Globaler Standard - Eingabe: Text (4.096 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3-small-8k-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3-medium-128k-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3-medium-4k-instruct chat-completion Globaler Standard - Eingabe: Text (4.096 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3.5-vision-instruct chat-completion Globaler Standard - Eingabe: Text und Bild (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3.5-MoE-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr und uk
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3-small-128k-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-3.5-mini-instruct chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr und uk
- Toolaufrufe: Nein
- Antwortformate: Text
Phi-4 chat-completion Globaler Standard - Eingabe: Text (16.384 Token)
- Ausgabe: (16.384 Token)
- Sprachen: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, or, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo und zh – Toolaufrufe: Nein
- Antwortformate: Text

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Mistral AI

Mistral AI bietet zwei Kategorien von Modellen: Premiummodelle, einschließlich Mistral Large und Mistral Small, und offene Modelle, einschließlich Mistral Nemo.

Modell type Tarif Capabilities
Ministral-3B chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: fr, de, es, it und en
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Mistral-Large chat-completion Globaler Standard - Eingabe: Text (32.768 Token)
- Ausgabe: (4.096 Token)
- Sprachen: fr, de, es, it und en
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Mistral-small chat-completion Globaler Standard - Eingabe: Text (32.768 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: fr, de, es, it und en
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Mistral-Nemo chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Mistral-large-2407 chat-completion Globaler Standard - Eingabe: Text (131.072 Token)
- Ausgabe: (4.096 Token)
- Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Mistral-Large-2411 chat-completion Globaler Standard - Eingabe: Text (128.000 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
Codestral-2501 chat-completion Globaler Standard - Eingabe: Text (262.144 Token)
- Ausgabe: Text (4.096 Token)
- Sprachen: en
- Toolaufrufe: Nein
- Antwortformate: Text

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

NTT Data

Tsuzumi ist ein autoregressiver sprachoptimierter Transformator. Die optimierten Versionen verwenden die überwachte Optimierung (Supervised Fine-Tuning, SFT). Tsuzumi verarbeitet sowohl Japanisch als auch Englisch mit hoher Effizienz.

Modell type Tarif Capabilities
Tsuzumi-7b chat-completion Globaler Standard - Eingabe: Text (8.192 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen: en und jp
- Toolaufrufe: Nein
- Antwortformate: Text

Nächste Schritte