Modelos disponibles en la inferencia de modelos de Azure AI

Artículo
01/29/2025

La inferencia de modelos de Azure AI en Fundición de IA de Azure proporciona acceso a modelos insignia en Azure AI para consumirlos como API sin hospedarlos en la infraestructura.

La disponibilidad del modelo varía según el proveedor de modelos, el SKU de la implementación y la nube. Todos los modelos disponibles en la inferencia de modelos de Azure AI admiten el tipo de implementación estándar global que usa la capacidad global para garantizar el rendimiento. Los modelos de Azure OpenAI también admiten implementaciones regionales y nubes soberanas: Azure Government, Azure Alemania y Azure China 21Vianet.

Obtenga más información sobre las funcionalidades de implementación específicas para Azure OpenAI en la disponibilidad del modelo de Azure OpenAI.

Sugerencia

El catálogo de modelos de Azure AI ofrece una selección mayor de modelos, desde una gama más grande de proveedores. Sin embargo, esos modelos pueden requerir que los hospede en la infraestructura, incluida la creación de un Centro de IA y un proyecto. El servicio de modelos de Azure AI proporciona una manera de consumir los modelos como API sin hospedarlos en la infraestructura, con una facturación de pago por uso. Obtenga más información sobre el catálogo de modelos de Azure AI.

Puede ver todos los modelos disponibles en el catálogo de modelos para el Portal de la Fundición de IA de Azure.

AI21 Labs

Los modelos de la familia Jamba son un modelo de lenguaje grande (LLM) basado en Mamba de nivel de producción de AI21, que aprovecha la arquitectura híbrida Mamba-Transformer de AI21. Es una versión optimizada para instrucciones del modelo de espacio de estado estructurado híbrido (SSM) de AI21. Los modelos de la familia Jamba se han creado para un uso comercial confiable con respecto a la calidad y el rendimiento.

Modelo	Tipo	Nivel	Funcionalidades
AI21-Jamba-1.5-Mini	chat_completion	Estándar global	- Entrada: Texto (262 144 tokens) - Salida: (4096 tokens) - Languages:`en`, `fr`, `es`, `pt`, `de`, `ar` y `he` - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
AI21-Jamba-1.5-Large	chat_completion	Estándar global	- Entrada: Texto (262 144 tokens) - Salida: (4096 tokens) - Languages:`en`, `fr`, `es`, `pt`, `de`, `ar` y `he` - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Azure OpenAI

Azure OpenAI Service ofrece una amplia gama de modelos con diferentes funcionalidades y puntos de precio. Estos modelos incluyen lo siguiente:

Los modelos de última generación están diseñados para abordar tareas de razonamiento y resolución de problemas con un mayor foco y capacidad
Modelos que pueden entender y generar lenguaje natural y código
Modelos pueden transcribir y traducir la conversión de voz en texto

Modelo	Tipo	Nivel	Funcionalidades
o3-mini	chat_completion	Estándar global	- Entrada: Texto e imagen (200 000 tokens) - Salida: Texto (100 000 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
o1	chat_completion	Estándar global	- Entrada: Texto e imagen (200 000 tokens) - Salida: Texto (100 000 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
o1-preview	chat_completion	Estándar global Estándar	- Entrada: Texto (128 000 tokens) - Salida: (32 768 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
o1-mini	chat_completion	Estándar global Estándar	- Entrada: Texto (128 000 tokens) - Salida: (65 536 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a la herramienta: No - Formatos de respuesta: Texto
gpt-4o-realtime-preview	real-time	Estándar global	- Entrada: Control, texto y audio (131 072 tokens) - Salida: Texto y audio (16 384 tokens) - Idiomas: en - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
gpt-4o	chat_completion	Estándar global Estándar Batch aprovisionado Aprovisionado global Zona de datos	- Entrada: Texto e imagen (131 072 tokens) - Salida: Texto (16 384 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
gpt-4o-mini	chat_completion	Estándar global Estándar Batch aprovisionado Aprovisionado global Zona de datos	- Entrada: Texto, imagen y audio (131 072 tokens) - Salida: (16 384 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr` y `te`. - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON, salidas estructuradas
text-embedding-3-large	embeddings	Estándar global Estándar aprovisionado Aprovisionado global	- Entrada: Texto (8191 tokens) - Salida: Vector (3072 dim.) - Idiomas:`en`
text-embedding-3-small	embeddings	Estándar global Estándar aprovisionado Aprovisionado global	- Entrada: Texto (8191 tokens) - Salida: Vector (1536 dim.) - Idiomas:`en`

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Cohere

La familia de modelos de Cohere incluye varios modelos optimizados para distintos casos de uso, como finalizaciones de chat e incrustaciones. Los modelos de Cohere están optimizados para diversos casos de uso que incluyen el razonamiento, el resumen y la respuesta a preguntas.

Modelo	Tipo	Nivel	Funcionalidades
Cohere-embed-v3-english	inserciones incrustaciones de imágenes	Estándar global	- Entrada: Texto (512 tokens) - Salida: Vector (1024 dim.) - Idiomas: en
Cohere-embed-v3-multilingual	inserciones incrustaciones de imágenes	Estándar global	- Entrada: Texto (512 tokens) - Salida: Vector (1024 dim.) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar
Cohere-command-r-plus-08-2024	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Cohere-command-r-08-2024	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Cohere-command-r-plus	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Cohere-command-r	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Core42

Core42 incluye LLM bidireccionales autorregresivos bilingües para árabe e inglés con funcionalidades de última generación en árabe.

Modelo	Tipo	Nivel	Funcionalidades
jais-30b-chat	chat_completion	Estándar global	- Entrada: Texto (8192 tokens) - Salida: (4096 tokens) - Idiomas: en y ar - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

DeepSeek

La familia de modelos DeepSeek incluye DeepSeek-R1, que se destaca en las tareas de razonamiento mediante un proceso de entrenamiento paso a paso, como el lenguaje, el razonamiento científico y las tareas de codificación.

Modelo	Tipo	Nivel	Funcionalidades
DeekSeek-R1	chat_completion (con contenido de razonamiento)	Estándar global	- Entrada: Texto (16 384 tokens) - Salida: (163 840 tokens) - Idiomas:`en` y `zh` - Llamada a la herramienta: No - Formatos de respuesta: Texto.

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Metadatos

Los modelos y herramientas de Meta Llama son una colección de modelos de razonamiento de imágenes y texto de IA generativa previamente entrenados y optimizados. El intervalo de modelos de Meta se escala para incluir:

Pequeños modelos de lenguaje (SLM) como Base 1B y 3B y modelos de instrucción para la inferencia perimetral y en el dispositivo
Modelos de lenguaje grande de tamaño medio (LLM) como Base 7B, 8B y 70B y modelos de instrucción
Modelos de alto rendimiento como Meta Llama 3.1-405B Instruct para casos de uso de generación y destilación de datos sintéticos.

Modelo	Tipo	Nivel	Funcionalidades
Llama-3.3-70B-Instruct	chat_completion	Estándar global	- Entrada: Texto (128 000 tokens) - Salida: Texto (8192 tokens) - Idiomas: en, de, fr, it, pt, hi, es y th - Llamada a herramientas: No* - Formatos de respuesta: Texto
Llama-3.2-11B-Vision-Instruct	chat_completion	Estándar global	- Entrada: Texto e imagen (128 000 tokens) - Salida: (8192 tokens) - Idiomas: en - Llamada a herramientas: No* - Formatos de respuesta: Texto
Llama-3.2-90B-Vision-Instruct	chat_completion	Estándar global	- Entrada: Texto e imagen (128 000 tokens) - Salida: (8192 tokens) - Idiomas: en - Llamada a herramientas: No* - Formatos de respuesta: Texto
Meta-Llama-3.1-405B-Instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (8192 tokens) - Idiomas: en, de, fr, it, pt, hi, es y th - Llamada a herramientas: No* - Formatos de respuesta: Texto
Meta-Llama-3-8B-Instruct	chat_completion	Estándar global	- Entrada: Texto (8192 tokens) - Salida: (8192 tokens) - Idiomas: en - Llamada a herramientas: No* - Formatos de respuesta: Texto
Meta-Llama-3.1-70B-Instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (8192 tokens) - Idiomas: en, de, fr, it, pt, hi, es y th - Llamada a herramientas: No* - Formatos de respuesta: Texto
Meta-Llama-3.1-8B-Instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (8192 tokens) - Idiomas: en, de, fr, it, pt, hi, es y th - Llamada a herramientas: No* - Formatos de respuesta: Texto
Meta-Llama-3-70B-Instruct	chat_completion	Estándar global	- Entrada: Texto (8192 tokens) - Salida: (8192 tokens) - Idiomas: en - Llamada a herramientas: No* - Formatos de respuesta: Texto

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Microsoft

Phi es una familia de modelos abiertos ligeros y de última generación. Estos modelos se entrenaron con conjuntos de datos Phi-3. Los conjuntos de datos incluyen tanto datos sintéticos como datos filtrados y datos de sitios web disponibles públicamente, con un enfoque en propiedades de alta calidad y densas en razonamiento. Los modelos se sometieron a un proceso de mejora riguroso, incorporando tanto el ajuste preciso supervisado, la optimización de directivas proximales y la optimización de preferencias directas para garantizar un cumplimiento preciso de las instrucciones y medidas de seguridad sólidas.

Modelo	Tipo	Nivel	Funcionalidades
Phi-3-mini-128k-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3-mini-4k-instruct	chat_completion	Estándar global	- Entrada: Texto (4 096 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3-small-8k-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3-medium-128k-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3-medium-4k-instruct	chat_completion	Estándar global	- Entrada: Texto (4 096 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3.5-vision-instruct	chat_completion	Estándar global	- Entrada: Texto e imagen (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3.5-MoE-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: Texto (4096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr y uk - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3-small-128k-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-3.5-mini-instruct	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, he, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr y uk - Llamada a la herramienta: No - Formatos de respuesta: Texto
Phi-4	chat_completion	Estándar global	- Entrada: Texto (16 384 tokens) - Salida: (16 384 tokens) - Idiomas: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, o, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, your, vi, yo, and zh - Llamada a la herramienta: No - Formatos de respuesta: Texto

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

Mistral AI

Mistral AI ofrece dos categorías de modelos: modelos premium, como Mistral Large y Mistral Small, y modelos abiertos, como Mistral Nemo.

Modelo	Tipo	Nivel	Funcionalidades
Ministral-3B	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: Texto (4096 tokens) - Idiomas: fr, de, es, it y en - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Mistral-Large (en desuso)	chat_completion	Estándar global	- Entrada: Texto (32 768 tokens) - Salida: (4096 tokens) - Idiomas: fr, de, es, it y en - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Mistral-small	chat_completion	Estándar global	- Entrada: Texto (32 768 tokens) - Salida: Texto (4096 tokens) - Idiomas: fr, de, es, it y en - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Mistral-Nemo	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: Texto (4096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl y pl - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Mistral-large-2407 (heredado)	chat_completion	Estándar global	- Entrada: Texto (131 072 tokens) - Salida: (4096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl y pl - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Mistral-Large-2411	chat_completion	Estándar global	- Entrada: Texto (128 000 tokens) - Salida: Texto (4096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl y pl - Llamada a herramientas: Sí - Formatos de respuesta: Texto, JSON
Codestral-2501	chat_completion	Estándar global	- Entrada: Texto (262 144 tokens) - Salida: Texto (4096 tokens) - Idiomas: en - Llamada a la herramienta: No - Formatos de respuesta: Texto

Consulte esta colección de modelos en el Portal de la Fundición de IA de Azure.

NTT Data

Tsuzumi es un transformador optimizado para lenguaje autorregresivo. Las versiones optimizadas usan el ajuste fino supervisado (SFT). Tsuzumi maneja tanto japonés como inglés con alta eficiencia.

Modelo	Tipo	Nivel	Funcionalidades
Tsuzumi-7b	chat_completion	Estándar global	- Entrada: Texto (8192 tokens) - Salida: Texto (8192 tokens) - Idiomas: en y jp - Llamada a la herramienta: No - Formatos de respuesta: Texto

Pasos siguientes

Comience hoy e implemente su primer modelo en los servicios de Azure AI

Compartir vía

Modelos disponibles en la inferencia de modelos de Azure AI

AI21 Labs

Azure OpenAI

Cohere

Core42

DeepSeek

Metadatos

Microsoft

Mistral AI

NTT Data

Pasos siguientes

Comentarios

Recursos adicionales