Compartilhar via


Modelos disponíveis na inferência de modelo de IA do Azure

A inferência de modelo de IA do Azure na Fábrica de IA do Azure fornece acesso a modelos principais na IA do Azure para consumi-los como APIs sem hospedá-los na infraestrutura.

Dica

DeepSeek-R1 (prévia) está disponível para implantação como ponto de Extremidade de API sem servidor.

Uma animação mostrando a seção de catálogo de modelos do Estúdio de IA do Azure e os modelos disponíveis.

A disponibilidade do modelo varia de acordo com o provedor de modelos, o SKU de implantação e a nuvem. Todos os modelos disponíveis na inferência de modelo de IA do Azure dão suporte ao tipo de implantação padrão global que usa a capacidade global para garantir a taxa de transferência. Os modelos do OpenAI do Azure também dão suporte a implantações regionais e em nuvens soberanas – Azure Governamental, Azure Alemanha e Azure China 21Vianet.

Saiba mais sobre os recursos de implantação específicos para o OpenAI do Azure na disponibilidade do modelo OpenAI do Azure.

Dica

O catálogo de modelos de IA do Azure oferece uma seleção maior de modelos, de uma variedade maior de provedores. No entanto, esses modelos podem exigir que você os hospede na infraestrutura, incluindo a criação de um hub de IA e um projeto. O serviço de modelo de IA do Azure fornece uma maneira de consumir os modelos como APIs sem hospedá-los na infraestrutura, com uma cobrança de pagamento Conforme o Uso. Saiba mais sobre o catálogo de modelos de IA do Azure.

Você pode ver todos os modelos disponíveis no catálogo de modelos do portal da Fábrica de IA do Azure.

AI21 Labs

Os modelos da família Jamba são do tipo LLM (grande modelo de linguagem) baseados em Mamba no nível de produção da AI21, que usam a arquitetura híbrida Mamba-Transformer da AI21. É uma versão ajustada por instrução do modelo Jamba do transformador híbrido de modelo de espaço de estado estruturado (SSM) do AI21. Os modelos da família Jamba são desenvolvidos para uso comercial confiável em termos de qualidade e desempenho.

Modelar Tipo Camada Funcionalidades
AI21-Jamba-1.5-Mini chat_completion Padrão global - Entrada: texto (262.144 tokens)
- Saída: (4.096 tokens)
- Idiomas:en, fr, es, pt, de, ar e he
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
AI21-Jamba-1.5-Large chat_completion Padrão global - Entrada: texto (262.144 tokens)
- Saída: (4.096 tokens)
- Idiomas:en, fr, es, pt, de, ar e he
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

OpenAI do Azure

O Serviço OpenAI do Azure oferece um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. Esses modelos incluem:

  • Os modelos de última geração projetados para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade
  • Modelos que podem entender e gerar linguagem natural e código
  • Modelos que podem transcrever e converter fala em texto
Modelar Tipo Camada Funcionalidades
o1 chat_completion Padrão global - Entrada: texto e imagem (200.000 tokens)
- Saída: texto (100.000 tokens)
- Idiomas:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr, te.
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
o1-preview chat_completion Padrão global
Standard
- Entrada: texto (128.000 tokens)
- Saída: (32.768 tokens)
- Idiomas:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr, te.
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
o1-mini chat_completion Padrão global
Standard
- Entrada: texto (128.000 tokens)
- Saída: (65.536 tokens)
- Idiomas:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr, te.
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
gpt-4o-realtime-preview real-time Padrão global - Entrada: controle, texto e áudio (131.072 tokens)
- Saída: texto e áudio (16.384 tokens)
- Idiomas: en
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
gpt-4o chat_completion Padrão global
Standard
Batch
Provisionado
Provisionado globalmente
Zona de dados
- Entrada: texto e imagem (131.072 tokens)
- Saída: texto (16.384 tokens)
- Idiomas:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr, te.
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
gpt-4o-mini chat_completion Padrão global
Standard
Batch
Provisionado
Provisionado globalmente
Zona de dados
- Entrada: texto, imagem e áudio (131.072 tokens)
- Saída: (16.384 tokens)
- Idiomas:en, it, af, es, de, fr, id, ru, pl, uk, el, lv, zh, ar, tr, ja, sw, cy, ko, is, bn, ur, ne, th, pa, mr, te.
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
text-embedding-3-large Inserções Padrão global
Standard
Provisionado
Provisionado globalmente
- Entrada: texto (8.191 tokens)
- Saída: vetor (3.072 dim.)
- Idiomas:en
text-embedding-3-small Inserções Padrão global
Standard
Provisionado
Provisionado globalmente
- Entrada: texto (8.191 tokens)
- Saída: vetor (1.536 dim.)
- Idiomas:en

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Cohere

A família de modelos Cohere inclui vários modelos otimizados para casos de uso diferentes, incluindo conclusões de chat e inserções. Os modelos do Cohere são otimizados para vários casos de uso que incluem raciocínio, resumo e resposta às perguntas.

Modelar Tipo Camada Funcionalidades
Cohere-embed-v3-english Inserções
image_embeddings
Padrão global - Entrada: texto (512 tokens)
- Saída: vetor (1.024 dim.)
- Idiomas: en
Cohere-embed-v3-multilingual Inserções
image_embeddings
Padrão global - Entrada: texto (512 tokens)
- Saída: vetor (1.024 dim.)
- Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
Cohere-command-r-plus-08-2024 chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r-08-2024 chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r-plus chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Core42

O Core42 inclui LLMs bilíngues autorregressivas para árabe e inglês com funcionalidades de última geração em árabe.

Modelar Tipo Camada Funcionalidades
jais-30b-chat chat_completion Padrão global - Entrada: texto (8.192 tokens)
- Saída: (4.096 tokens)
- Idiomas: en e ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Meta

Os modelos e ferramentas do Meta Llama são uma coleção de modelos de texto de IA e de imagem pré-treinados e ajustados. O intervalo de modelos Meta é dimensionado para incluir:

  • SLM (pequenos modelos de linguagem) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
  • LLM (grandes modelos de linguagem) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
  • Modelos de alto desempenho, como o de Instrução Meta Llama 3.1-405B para casos de uso de destilação e geração de dados sintéticos.
Modelar Tipo Camada Funcionalidades
Llama-3.3-70B-Instruct chat_completion Padrão global - Entrada: texto (128.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas: en, de, fr, it, pt, hi, es e th
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Llama-3.2-11B-Vision-Instruct chat_completion Padrão global - Entrada: texto e imagem (128.000 tokens)
- Saída: (8.192 tokens)
- Idiomas: en
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Llama-3.2-90B-Vision-Instruct chat_completion Padrão global - Entrada: texto e imagem (128.000 tokens)
- Saída: (8.192 tokens)
- Idiomas: en
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Meta-Llama-3.1-405B-Instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (8.192 tokens)
- Idiomas: en, de, fr, it, pt, hi, es e th
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Meta-Llama-3-8B-Instruct chat_completion Padrão global - Entrada: texto (8.192 tokens)
- Saída: (8.192 tokens)
- Idiomas: en
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Meta-Llama-3.1-70B-Instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (8.192 tokens)
- Idiomas: en, de, fr, it, pt, hi, es e th
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Meta-Llama-3.1-8B-Instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (8.192 tokens)
- Idiomas: en, de, fr, it, pt, hi, es e th
- Ferramenta de chamado: não*
- Formatos de resposta: texto
Meta-Llama-3-70B-Instruct chat_completion Padrão global - Entrada: texto (8.192 tokens)
- Saída: (8.192 tokens)
- Idiomas: en
- Ferramenta de chamado: não*
- Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Microsoft

Phi é uma família de modelos abertos leves e de última geração. Esses modelos foram treinados com conjuntos de dados Phi-3. Os conjuntos de dados incluem dados sintéticos e dados filtrados de sites disponíveis publicamente, com foco em propriedades de alta qualidade e densidade de raciocínio. Os modelos passaram por um rigoroso processo de aprimoramento, incorporando tanto ajuste fino supervisionado, otimização de políticas proximais quanto otimização de preferências diretas para garantir a adesão precisa às instruções e robustas medidas de segurança.

Modelar Tipo Camada Funcionalidades
Phi-3-mini-128k-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3-mini-4k-instruct chat_completion Padrão global - Entrada: texto (4.096 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3-small-8k-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3-medium-128k-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3-medium-4k-instruct chat_completion Padrão global - Entrada: texto (4.096 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3.5-vision-Instruct chat_completion Padrão global - Entrada: texto e imagem (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3.5-MoE-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3-small-128k-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-3.5-mini-instruct chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk
- Ferramenta de chamado: não
- Formatos de resposta: texto
Phi-4 chat_completion Padrão global - Entrada: texto (16.384 tokens)
- Saída: (16.384 tokens)
- Idiomas: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, or, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, e zh - Ferramenta de chamada: Não
- Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Mistral AI

A IA do Mistral oferece duas categorias de modelos: modelos Premium, incluindo Mistral Large, Mistral Small e modelos abertos, incluindo o Mistral Nemo.

Modelar Tipo Camada Funcionalidades
Ministral-3B chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: fr, de, es, it e en
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-large chat_completion Padrão global - Entrada: texto (32.768 tokens)
- Saída: (4.096 tokens)
- Idiomas: fr, de, es, it e en
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-small chat_completion Padrão global - Entrada: texto (32.768 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: fr, de, es, it e en
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral Nemo chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-large-2407 chat_completion Padrão global - Entrada: texto (131.072 tokens)
- Saída: (4.096 tokens)
- Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-Large-2411 chat_completion Padrão global - Entrada: texto (128.000 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Codestral-2501 chat_completion Padrão global - Entrada: texto (262.144 tokens)
- Saída: texto (4.096 tokens)
- Idiomas: en
- Ferramenta de chamado: não
- Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Dados de NTT

Tsuzumi é um transformador otimizado para linguagem autorregressiva. As versões ajustadas usam ajuste fino supervisionado (SFT). A Tsuzumi usa os idiomas japonês e inglês com alta eficiência.

Modelar Tipo Camada Funcionalidades
Tsuzumi-7b chat_completion Padrão global - Entrada: texto (8.192 tokens)
- Saída: texto (8.192 tokens)
- Idiomas: en e jp
- Ferramenta de chamado: não
- Formatos de resposta: texto

Próximas etapas