Modelos disponíveis na inferência de modelo de IA do Azure

Artigo
01/29/2025

A inferência de modelo de IA do Azure na Fábrica de IA do Azure fornece acesso a modelos principais na IA do Azure para consumi-los como APIs sem hospedá-los na infraestrutura.

Dica

DeepSeek-R1 (prévia) está disponível para implantação como ponto de Extremidade de API sem servidor.

A disponibilidade do modelo varia de acordo com o provedor de modelos, o SKU de implantação e a nuvem. Todos os modelos disponíveis na inferência de modelo de IA do Azure dão suporte ao tipo de implantação padrão global que usa a capacidade global para garantir a taxa de transferência. Os modelos do OpenAI do Azure também dão suporte a implantações regionais e em nuvens soberanas – Azure Governamental, Azure Alemanha e Azure China 21Vianet.

Saiba mais sobre os recursos de implantação específicos para o OpenAI do Azure na disponibilidade do modelo OpenAI do Azure.

Dica

O catálogo de modelos de IA do Azure oferece uma seleção maior de modelos, de uma variedade maior de provedores. No entanto, esses modelos podem exigir que você os hospede na infraestrutura, incluindo a criação de um hub de IA e um projeto. O serviço de modelo de IA do Azure fornece uma maneira de consumir os modelos como APIs sem hospedá-los na infraestrutura, com uma cobrança de pagamento Conforme o Uso. Saiba mais sobre o catálogo de modelos de IA do Azure.

Você pode ver todos os modelos disponíveis no catálogo de modelos do portal da Fábrica de IA do Azure.

AI21 Labs

Os modelos da família Jamba são do tipo LLM (grande modelo de linguagem) baseados em Mamba no nível de produção da AI21, que usam a arquitetura híbrida Mamba-Transformer da AI21. É uma versão ajustada por instrução do modelo Jamba do transformador híbrido de modelo de espaço de estado estruturado (SSM) do AI21. Os modelos da família Jamba são desenvolvidos para uso comercial confiável em termos de qualidade e desempenho.

Modelar	Tipo	Camada	Funcionalidades
AI21-Jamba-1.5-Mini	chat_completion	Padrão global	- Entrada: texto (262.144 tokens) - Saída: (4.096 tokens) - Idiomas:`en`, `fr`, `es`, `pt`, `de`, `ar` e `he` - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
AI21-Jamba-1.5-Large	chat_completion	Padrão global	- Entrada: texto (262.144 tokens) - Saída: (4.096 tokens) - Idiomas:`en`, `fr`, `es`, `pt`, `de`, `ar` e `he` - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

OpenAI do Azure

O Serviço OpenAI do Azure oferece um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. Esses modelos incluem:

Os modelos de última geração projetados para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade
Modelos que podem entender e gerar linguagem natural e código
Modelos que podem transcrever e converter fala em texto

Modelar	Tipo	Camada	Funcionalidades
o1	chat_completion	Padrão global	- Entrada: texto e imagem (200.000 tokens) - Saída: texto (100.000 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr`, `te`. - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
o1-preview	chat_completion	Padrão global Standard	- Entrada: texto (128.000 tokens) - Saída: (32.768 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr`, `te`. - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
o1-mini	chat_completion	Padrão global Standard	- Entrada: texto (128.000 tokens) - Saída: (65.536 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr`, `te`. - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
gpt-4o-realtime-preview	real-time	Padrão global	- Entrada: controle, texto e áudio (131.072 tokens) - Saída: texto e áudio (16.384 tokens) - Idiomas: en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
gpt-4o	chat_completion	Padrão global Standard Batch Provisionado Provisionado globalmente Zona de dados	- Entrada: texto e imagem (131.072 tokens) - Saída: texto (16.384 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr`, `te`. - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
gpt-4o-mini	chat_completion	Padrão global Standard Batch Provisionado Provisionado globalmente Zona de dados	- Entrada: texto, imagem e áudio (131.072 tokens) - Saída: (16.384 tokens) - Idiomas:`en`, `it`, `af`, `es`, `de`, `fr`, `id`, `ru`, `pl`, `uk`, `el`, `lv`, `zh`, `ar`, `tr`, `ja`, `sw`, `cy`, `ko`, `is`, `bn`, `ur`, `ne`, `th`, `pa`, `mr`, `te`. - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas
text-embedding-3-large	Inserções	Padrão global Standard Provisionado Provisionado globalmente	- Entrada: texto (8.191 tokens) - Saída: vetor (3.072 dim.) - Idiomas:`en`
text-embedding-3-small	Inserções	Padrão global Standard Provisionado Provisionado globalmente	- Entrada: texto (8.191 tokens) - Saída: vetor (1.536 dim.) - Idiomas:`en`

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Cohere

A família de modelos Cohere inclui vários modelos otimizados para casos de uso diferentes, incluindo conclusões de chat e inserções. Os modelos do Cohere são otimizados para vários casos de uso que incluem raciocínio, resumo e resposta às perguntas.

Modelar	Tipo	Camada	Funcionalidades
Cohere-embed-v3-english	Inserções image_embeddings	Padrão global	- Entrada: texto (512 tokens) - Saída: vetor (1.024 dim.) - Idiomas: en
Cohere-embed-v3-multilingual	Inserções image_embeddings	Padrão global	- Entrada: texto (512 tokens) - Saída: vetor (1.024 dim.) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
Cohere-command-r-plus-08-2024	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Cohere-command-r-08-2024	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Cohere-command-r-plus	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Cohere-command-r	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Core42

O Core42 inclui LLMs bilíngues autorregressivas para árabe e inglês com funcionalidades de última geração em árabe.

Modelar	Tipo	Camada	Funcionalidades
jais-30b-chat	chat_completion	Padrão global	- Entrada: texto (8.192 tokens) - Saída: (4.096 tokens) - Idiomas: en e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Modelar	Tipo	Camada	Funcionalidades
Llama-3.3-70B-Instruct	chat_completion	Padrão global	- Entrada: texto (128.000 tokens) - Saída: texto (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto
Llama-3.2-11B-Vision-Instruct	chat_completion	Padrão global	- Entrada: texto e imagem (128.000 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto
Llama-3.2-90B-Vision-Instruct	chat_completion	Padrão global	- Entrada: texto e imagem (128.000 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto
Meta-Llama-3.1-405B-Instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto
Meta-Llama-3-8B-Instruct	chat_completion	Padrão global	- Entrada: texto (8.192 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto
Meta-Llama-3.1-70B-Instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto
Meta-Llama-3.1-8B-Instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto
Meta-Llama-3-70B-Instruct	chat_completion	Padrão global	- Entrada: texto (8.192 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto

Microsoft

Phi é uma família de modelos abertos leves e de última geração. Esses modelos foram treinados com conjuntos de dados Phi-3. Os conjuntos de dados incluem dados sintéticos e dados filtrados de sites disponíveis publicamente, com foco em propriedades de alta qualidade e densidade de raciocínio. Os modelos passaram por um rigoroso processo de aprimoramento, incorporando tanto ajuste fino supervisionado, otimização de políticas proximais quanto otimização de preferências diretas para garantir a adesão precisa às instruções e robustas medidas de segurança.

Modelar	Tipo	Camada	Funcionalidades
Phi-3-mini-128k-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3-mini-4k-instruct	chat_completion	Padrão global	- Entrada: texto (4.096 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3-small-8k-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3-medium-128k-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3-medium-4k-instruct	chat_completion	Padrão global	- Entrada: texto (4.096 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3.5-vision-Instruct	chat_completion	Padrão global	- Entrada: texto e imagem (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3.5-MoE-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3-small-128k-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-3.5-mini-instruct	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk - Ferramenta de chamado: não - Formatos de resposta: texto
Phi-4	chat_completion	Padrão global	- Entrada: texto (16.384 tokens) - Saída: (16.384 tokens) - Idiomas: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, or, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, e zh - Ferramenta de chamada: Não - Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Mistral AI

A IA do Mistral oferece duas categorias de modelos: modelos Premium, incluindo Mistral Large, Mistral Small e modelos abertos, incluindo o Mistral Nemo.

Modelar	Tipo	Camada	Funcionalidades
Ministral-3B	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Mistral-large	chat_completion	Padrão global	- Entrada: texto (32.768 tokens) - Saída: (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Mistral-small	chat_completion	Padrão global	- Entrada: texto (32.768 tokens) - Saída: texto (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Mistral Nemo	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Mistral-large-2407	chat_completion	Padrão global	- Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Mistral-Large-2411	chat_completion	Padrão global	- Entrada: texto (128.000 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON
Codestral-2501	chat_completion	Padrão global	- Entrada: texto (262.144 tokens) - Saída: texto (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Dados de NTT

Tsuzumi é um transformador otimizado para linguagem autorregressiva. As versões ajustadas usam ajuste fino supervisionado (SFT). A Tsuzumi usa os idiomas japonês e inglês com alta eficiência.

Modelar	Tipo	Camada	Funcionalidades
Tsuzumi-7b	chat_completion	Padrão global	- Entrada: texto (8.192 tokens) - Saída: texto (8.192 tokens) - Idiomas: en e jp - Ferramenta de chamado: não - Formatos de resposta: texto

Próximas etapas

Comece hoje e implante seu primeiro modelo nos serviços de IA do Azure

Compartilhar via

Modelos disponíveis na inferência de modelo de IA do Azure

AI21 Labs

OpenAI do Azure

Cohere

Core42

Meta

Microsoft

Mistral AI

Dados de NTT

Próximas etapas

Comentários

Recursos adicionais