Azure KI-Modellinferenz verfügbare Modelle

Artikel
02/05/2025

Azure KI-Modellinferenz in Azure AI Foundry bietet Ihnen Zugriff auf führende Modelle in Azure KI, damit Sie sie als APIs nutzen können, ohne sie in Ihrer Infrastruktur zu hosten.

Tipp

DeepSeek-R1 (Vorschau) ist für die Bereitstellung als Serverloser API-Endpunkt verfügbar.

Die Modellverfügbarkeit variiert je nach Modellanbieter, Bereitstellungs-SKU und Cloud. Alle in Azure KI-Modellinferenz verfügbaren Modelle unterstützen den Bereitstellungstyp Globaler Standard, der globale Kapazität verwendet, um den Durchsatz zu gewährleisten. Azure OpenAI-Modelle unterstützen auch regionale Bereitstellungen und Sovereign Clouds: Azure Government, Azure Deutschland und Azure China 21Vianet.

Unter Azure OpenAI Service-Modelle finden Sie weitere Informationen zu spezifischen Bereitstellungsfunktionen für Azure OpenAI.

Tipp

Der Azure KI-Modellkatalog bietet eine größere Auswahl an Modellen von einer größeren Anzahl von Anbietern. Diese Modelle müssen jedoch möglicherweise in Ihrer Infrastruktur gehostet werden, und es müssen ein KI-Hub und ein Projekt erstellt werden. Der Azure KI-Modelldienst bietet eine Möglichkeit, die Modelle als APIs zu nutzen, ohne sie in Ihrer Infrastruktur zu hosten. Die Abrechnung erfolgt nach dem Prinzip der nutzungsbasierten Bezahlung. Erfahren Sie mehr über den Azure KI-Modellkatalog.

Im Modellkatalog für das Azure AI Foundry-Portal werden alle für Sie verfügbaren Modelle angezeigt.

AI21 Labs

Jamba-Familienmodelle sind auf Mamba basierende, produktionstaugliche Large Language Models (LLM) von AI21, die die hybride Mamba-Transformer-Architektur von AI21 nutzen. Es ist eine anweisungsoptimierte Version des hybriden strukturierten Zustandsraummodells (State Space Model, SSM) des Jamba-Transformer-Modells von AI21. Im Hinblick auf Qualität und Leistung sind die Jamba-Familienmodelle auf die zuverlässige kommerzielle Nutzung ausgerichtet.

Modell	type	Tarif	Capabilities
AI21-Jamba-1.5-Mini	chat-completion	Globaler Standard	- Eingabe: Text (262.144 Token) - Ausgabe: (4.096 Token) - Sprachen:`en`, `fr`, `es`, `pt`, `de`, `ar` und `he` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
AI21-Jamba-1.5-Large	chat-completion	Globaler Standard	- Eingabe: Text (262.144 Token) - Ausgabe: (4.096 Token) - Sprachen:`en`, `fr`, `es`, `pt`, `de`, `ar` und `he` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Azure OpenAI

Azure OpenAI Service bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Preispunkten. Zu diesen Modellen gehören folgende:

Modernste Modelle, die für die Behandlung von Schlussfolgerungs- und Problemlösungsaufgaben mit erhöhtem Fokus und mehr Funktionalität konzipiert sind
Modelle, die natürliche Sprache und Code verstehen und generieren können
Modelle, die Sprache transkribieren und in Text übersetzen können

Modell	type	Tarif	Capabilities
o1	chat-completion	Globaler Standard	- Eingabe: Text und Bild (200.000 Token) - Ausgabe: Text (100.000 Token) - Sprachen:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` und `te` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
o1-preview	chat-completion	Globaler Standard Standard	- Eingabe: Text (128.000 Token) - Ausgabe: (32.768 Token) - Sprachen:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` und `te` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
o1-mini	chat-completion	Globaler Standard Standard	- Eingabe: Text (128.000 Token) - Ausgabe: (65.536 Token) - Sprachen:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` und `te` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
gpt-4o-realtime-preview	real-time	Globaler Standard	- Eingabe: Steuerelement, Text und Audio (131.072 Token) - Ausgabe: Text und Audio (16.384 Token) - Sprachen: en - Toolaufrufe: Ja - Antwortformate: Text, JSON
gpt-4o	chat-completion	Globaler Standard Standard Batch Bereitgestellt Global bereitgestellt Datenzone	- Eingabe: Text und Bild (131.072 Token) - Ausgabe: Text (16.384 Token) - Sprachen:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` und `te` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
gpt-4o-mini	chat-completion	Globaler Standard Standard Batch Bereitgestellt Global bereitgestellt Datenzone	- Eingabe: Text, Bild und Audio (131.072 Token) - Ausgabe: (16.384 Token) - Sprachen:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` und `te` - Toolaufrufe: Ja - Antwortformate: Text, JSON, strukturierte Ausgaben
text-embedding-3-large	embeddings	Globaler Standard Standard Bereitgestellt Global bereitgestellt	- Eingabe: Text (8.191 Token) - Ausgabe: Vektor (3.072 Dim.) - Sprachen:`en`
text-embedding-3-small	embeddings	Globaler Standard Standard Bereitgestellt Global bereitgestellt	- Eingabe: Text (8.191 Token) - Ausgabe: Vektor (1.536 Dim.) - Sprachen:`en`

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Cohere

Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, einschließlich Chatvervollständigungen und Einbettungen. Cohere-Modelle sind für verschiedene Anwendungsfälle optimiert, die Gründe, Zusammenfassungen und Fragen und Antworten umfassen.

Modell	type	Tarif	Capabilities
Cohere-embed-v3-english	embeddings image-embeddings	Globaler Standard	- Eingabe: Text (512 Token) - Ausgabe: Vektor (1.024 Dim.) - Sprachen: en
Cohere-embed-v3-multilingual	embeddings image-embeddings	Globaler Standard	- Eingabe: Text (512 Token) - Ausgabe: Vektor (1.024 Dim.) - Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar
Cohere-command-r-plus-08-2024	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar - Toolaufrufe: Ja - Antwortformate: Text, JSON
Cohere-command-r-08-2024	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar - Toolaufrufe: Ja - Antwortformate: Text, JSON
Cohere-command-r-plus	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar - Toolaufrufe: Ja - Antwortformate: Text, JSON
Cohere-command-r	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, fr, es, it, de, pt-br, ja, ko, zh-cn und ar - Toolaufrufe: Ja - Antwortformate: Text, JSON

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Core42

Core42 umfasst autoregressive bilinguale LLMs für Arabisch und Englisch mit modernsten Funktionen in Arabisch.

Modell	type	Tarif	Capabilities
jais-30b-chat	chat-completion	Globaler Standard	- Eingabe: Text (8.192 Token) - Ausgabe: (4.096 Token) - Sprachen: en und ar - Toolaufrufe: Ja - Antwortformate: Text, JSON

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Modell	type	Tarif	Capabilities
Llama-3.3-70B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (128.000 Token) - Ausgabe: Text (8.192 Token) - Sprachen: en, de, fr, it, pt, hi, es und th - Toolaufrufe: Nein* - Antwortformate: Text
Llama-3.2-11B-Vision-Instruct	chat-completion	Globaler Standard	- Eingabe: Text und Bild (128.000 Token) - Ausgabe: (8.192 Token) - Sprachen: en - Toolaufrufe: Nein* - Antwortformate: Text
Llama-3.2-90B-Vision-Instruct	chat-completion	Globaler Standard	- Eingabe: Text und Bild (128.000 Token) - Ausgabe: (8.192 Token) - Sprachen: en - Toolaufrufe: Nein* - Antwortformate: Text
Meta-Llama-3.1-405B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (8.192 Token) - Sprachen: en, de, fr, it, pt, hi, es und th - Toolaufrufe: Nein* - Antwortformate: Text
Meta-Llama-3-8B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (8.192 Token) - Ausgabe: (8.192 Token) - Sprachen: en - Toolaufrufe: Nein* - Antwortformate: Text
Meta-Llama-3.1-70B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (8.192 Token) - Sprachen: en, de, fr, it, pt, hi, es und th - Toolaufrufe: Nein* - Antwortformate: Text
Meta-Llama-3.1-8B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (8.192 Token) - Sprachen: en, de, fr, it, pt, hi, es und th - Toolaufrufe: Nein* - Antwortformate: Text
Meta-Llama-3-70B-Instruct	chat-completion	Globaler Standard	- Eingabe: Text (8.192 Token) - Ausgabe: (8.192 Token) - Sprachen: en - Toolaufrufe: Nein* - Antwortformate: Text

Microsoft

Die Phi-Familie enthält ind einfache, hochmoderne offene Modelle. Diese Modelle wurden mit Phi-3-Datasets trainiert. Die Datasets enthalten sowohl synthetische Daten als auch die gefilterten, öffentlich verfügbaren Websitedaten, wobei der Schwerpunkt auf qualitativ hochwertigen und für Schlussfolgerungen gut geeigneten Eigenschaften liegt. Das Modell wurde einem strengen Verbesserungsprozess unterzogen, der eine überwachte Optimierung, eine proximale Richtlinienoptimierung und eine direkte Präferenzoptimierung umfasste, um eine präzise Einhaltung der Anweisungen und zuverlässige Sicherheitsmaßnahmen zu gewährleisten.

Modell	type	Tarif	Capabilities
Phi-3-mini-128k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3-mini-4k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (4.096 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3-small-8k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3-medium-128k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3-medium-4k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (4.096 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3.5-vision-instruct	chat-completion	Globaler Standard	- Eingabe: Text und Bild (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3.5-MoE-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: Text (4.096 Token) - Sprachen: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr und uk - Toolaufrufe: Nein - Antwortformate: Text
Phi-3-small-128k-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text
Phi-3.5-mini-instruct	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr und uk - Toolaufrufe: Nein - Antwortformate: Text
Phi-4	chat-completion	Globaler Standard	- Eingabe: Text (16.384 Token) - Ausgabe: (16.384 Token) - Sprachen: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, or, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo und zh – Toolaufrufe: Nein - Antwortformate: Text

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

Mistral AI

Mistral AI bietet zwei Kategorien von Modellen: Premiummodelle, einschließlich Mistral Large und Mistral Small, und offene Modelle, einschließlich Mistral Nemo.

Modell	type	Tarif	Capabilities
Ministral-3B	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: Text (4.096 Token) - Sprachen: fr, de, es, it und en - Toolaufrufe: Ja - Antwortformate: Text, JSON
Mistral-Large	chat-completion	Globaler Standard	- Eingabe: Text (32.768 Token) - Ausgabe: (4.096 Token) - Sprachen: fr, de, es, it und en - Toolaufrufe: Ja - Antwortformate: Text, JSON
Mistral-small	chat-completion	Globaler Standard	- Eingabe: Text (32.768 Token) - Ausgabe: Text (4.096 Token) - Sprachen: fr, de, es, it und en - Toolaufrufe: Ja - Antwortformate: Text, JSON
Mistral-Nemo	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: Text (4.096 Token) - Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl - Toolaufrufe: Ja - Antwortformate: Text, JSON
Mistral-large-2407	chat-completion	Globaler Standard	- Eingabe: Text (131.072 Token) - Ausgabe: (4.096 Token) - Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl - Toolaufrufe: Ja - Antwortformate: Text, JSON
Mistral-Large-2411	chat-completion	Globaler Standard	- Eingabe: Text (128.000 Token) - Ausgabe: Text (4.096 Token) - Sprachen: en, fr, de, es, it, zh, ja, ko, pt, nl und pl - Toolaufrufe: Ja - Antwortformate: Text, JSON
Codestral-2501	chat-completion	Globaler Standard	- Eingabe: Text (262.144 Token) - Ausgabe: Text (4.096 Token) - Sprachen: en - Toolaufrufe: Nein - Antwortformate: Text

Weitere Informationen finden Sie in dieser Modellsammlung im Azure AI Foundry-Portal.

NTT Data

Tsuzumi ist ein autoregressiver sprachoptimierter Transformator. Die optimierten Versionen verwenden die überwachte Optimierung (Supervised Fine-Tuning, SFT). Tsuzumi verarbeitet sowohl Japanisch als auch Englisch mit hoher Effizienz.

Modell	type	Tarif	Capabilities
Tsuzumi-7b	chat-completion	Globaler Standard	- Eingabe: Text (8.192 Token) - Ausgabe: Text (8.192 Token) - Sprachen: en und jp - Toolaufrufe: Nein - Antwortformate: Text

Nächste Schritte

Legen Sie noch heute los, und stellen Sie Ihr erstes Modell in Azure KI Services bereit.

Teilen über

Azure KI-Modellinferenz verfügbare Modelle

AI21 Labs

Azure OpenAI

Cohere

Core42

Meta

Microsoft

Mistral AI

NTT Data

Nächste Schritte

Feedback

Zusätzliche Ressourcen