Modelos disponíveis na inferência de modelo de IA do Azure
A inferência de modelo de IA do Azure na Fábrica de IA do Azure fornece acesso a modelos principais na IA do Azure para consumi-los como APIs sem hospedá-los na infraestrutura.
Dica
DeepSeek-R1 (prévia) está disponível para implantação como ponto de Extremidade de API sem servidor.
A disponibilidade do modelo varia de acordo com o provedor de modelos, o SKU de implantação e a nuvem. Todos os modelos disponíveis na inferência de modelo de IA do Azure dão suporte ao tipo de implantação padrão global que usa a capacidade global para garantir a taxa de transferência. Os modelos do OpenAI do Azure também dão suporte a implantações regionais e em nuvens soberanas – Azure Governamental, Azure Alemanha e Azure China 21Vianet.
Saiba mais sobre os recursos de implantação específicos para o OpenAI do Azure na disponibilidade do modelo OpenAI do Azure.
Dica
O catálogo de modelos de IA do Azure oferece uma seleção maior de modelos, de uma variedade maior de provedores. No entanto, esses modelos podem exigir que você os hospede na infraestrutura, incluindo a criação de um hub de IA e um projeto. O serviço de modelo de IA do Azure fornece uma maneira de consumir os modelos como APIs sem hospedá-los na infraestrutura, com uma cobrança de pagamento Conforme o Uso. Saiba mais sobre o catálogo de modelos de IA do Azure.
Você pode ver todos os modelos disponíveis no catálogo de modelos do portal da Fábrica de IA do Azure.
AI21 Labs
Os modelos da família Jamba são do tipo LLM (grande modelo de linguagem) baseados em Mamba no nível de produção da AI21, que usam a arquitetura híbrida Mamba-Transformer da AI21. É uma versão ajustada por instrução do modelo Jamba do transformador híbrido de modelo de espaço de estado estruturado (SSM) do AI21. Os modelos da família Jamba são desenvolvidos para uso comercial confiável em termos de qualidade e desempenho.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
AI21-Jamba-1.5-Mini | chat_completion | Padrão global |
-
Entrada: texto (262.144 tokens) - Saída: (4.096 tokens) - Idiomas: en , fr , es , pt , de , ar e he - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
AI21-Jamba-1.5-Large | chat_completion | Padrão global |
-
Entrada: texto (262.144 tokens) - Saída: (4.096 tokens) - Idiomas: en , fr , es , pt , de , ar e he - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
OpenAI do Azure
O Serviço OpenAI do Azure oferece um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. Esses modelos incluem:
- Os modelos de última geração projetados para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade
- Modelos que podem entender e gerar linguagem natural e código
- Modelos que podem transcrever e converter fala em texto
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
o1 | chat_completion | Padrão global |
-
Entrada: texto e imagem (200.000 tokens) - Saída: texto (100.000 tokens) - Idiomas: en , it , af , es , de , fr , id , ru , pl , uk , el , lv , zh , ar , tr , ja , sw , cy , ko , is , bn , ur , ne , th , pa , mr , te . - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
o1-preview | chat_completion | Padrão global Standard |
-
Entrada: texto (128.000 tokens) - Saída: (32.768 tokens) - Idiomas: en , it , af , es , de , fr , id , ru , pl , uk , el , lv , zh , ar , tr , ja , sw , cy , ko , is , bn , ur , ne , th , pa , mr , te . - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
o1-mini | chat_completion | Padrão global Standard |
-
Entrada: texto (128.000 tokens) - Saída: (65.536 tokens) - Idiomas: en , it , af , es , de , fr , id , ru , pl , uk , el , lv , zh , ar , tr , ja , sw , cy , ko , is , bn , ur , ne , th , pa , mr , te . - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
gpt-4o-realtime-preview | real-time | Padrão global |
-
Entrada: controle, texto e áudio (131.072 tokens) - Saída: texto e áudio (16.384 tokens) - Idiomas: en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
gpt-4o | chat_completion | Padrão global Standard Batch Provisionado Provisionado globalmente Zona de dados |
-
Entrada: texto e imagem (131.072 tokens) - Saída: texto (16.384 tokens) - Idiomas: en , it , af , es , de , fr , id , ru , pl , uk , el , lv , zh , ar , tr , ja , sw , cy , ko , is , bn , ur , ne , th , pa , mr , te . - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
gpt-4o-mini | chat_completion | Padrão global Standard Batch Provisionado Provisionado globalmente Zona de dados |
-
Entrada: texto, imagem e áudio (131.072 tokens) - Saída: (16.384 tokens) - Idiomas: en , it , af , es , de , fr , id , ru , pl , uk , el , lv , zh , ar , tr , ja , sw , cy , ko , is , bn , ur , ne , th , pa , mr , te . - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON, saídas estruturadas |
text-embedding-3-large | Inserções | Padrão global Standard Provisionado Provisionado globalmente |
-
Entrada: texto (8.191 tokens) - Saída: vetor (3.072 dim.) - Idiomas: en |
text-embedding-3-small | Inserções | Padrão global Standard Provisionado Provisionado globalmente |
-
Entrada: texto (8.191 tokens) - Saída: vetor (1.536 dim.) - Idiomas: en |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Cohere
A família de modelos Cohere inclui vários modelos otimizados para casos de uso diferentes, incluindo conclusões de chat e inserções. Os modelos do Cohere são otimizados para vários casos de uso que incluem raciocínio, resumo e resposta às perguntas.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
Cohere-embed-v3-english | Inserções image_embeddings |
Padrão global |
-
Entrada: texto (512 tokens) - Saída: vetor (1.024 dim.) - Idiomas: en |
Cohere-embed-v3-multilingual | Inserções image_embeddings |
Padrão global |
-
Entrada: texto (512 tokens) - Saída: vetor (1.024 dim.) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar |
Cohere-command-r-plus-08-2024 | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Cohere-command-r-08-2024 | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Cohere-command-r-plus | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Cohere-command-r | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, es, it, de, pt-br, ja, ko, zh-cn, e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Core42
O Core42 inclui LLMs bilíngues autorregressivas para árabe e inglês com funcionalidades de última geração em árabe.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
jais-30b-chat | chat_completion | Padrão global |
-
Entrada: texto (8.192 tokens) - Saída: (4.096 tokens) - Idiomas: en e ar - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Meta
Os modelos e ferramentas do Meta Llama são uma coleção de modelos de texto de IA e de imagem pré-treinados e ajustados. O intervalo de modelos Meta é dimensionado para incluir:
- SLM (pequenos modelos de linguagem) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
- LLM (grandes modelos de linguagem) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
- Modelos de alto desempenho, como o de Instrução Meta Llama 3.1-405B para casos de uso de destilação e geração de dados sintéticos.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
Llama-3.3-70B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (128.000 tokens) - Saída: texto (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto |
Llama-3.2-11B-Vision-Instruct | chat_completion | Padrão global |
-
Entrada: texto e imagem (128.000 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto |
Llama-3.2-90B-Vision-Instruct | chat_completion | Padrão global |
-
Entrada: texto e imagem (128.000 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto |
Meta-Llama-3.1-405B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto |
Meta-Llama-3-8B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (8.192 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto |
Meta-Llama-3.1-70B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto |
Meta-Llama-3.1-8B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (8.192 tokens) - Idiomas: en, de, fr, it, pt, hi, es e th - Ferramenta de chamado: não* - Formatos de resposta: texto |
Meta-Llama-3-70B-Instruct | chat_completion | Padrão global |
-
Entrada: texto (8.192 tokens) - Saída: (8.192 tokens) - Idiomas: en - Ferramenta de chamado: não* - Formatos de resposta: texto |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Microsoft
Phi é uma família de modelos abertos leves e de última geração. Esses modelos foram treinados com conjuntos de dados Phi-3. Os conjuntos de dados incluem dados sintéticos e dados filtrados de sites disponíveis publicamente, com foco em propriedades de alta qualidade e densidade de raciocínio. Os modelos passaram por um rigoroso processo de aprimoramento, incorporando tanto ajuste fino supervisionado, otimização de políticas proximais quanto otimização de preferências diretas para garantir a adesão precisa às instruções e robustas medidas de segurança.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
Phi-3-mini-128k-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3-mini-4k-instruct | chat_completion | Padrão global |
-
Entrada: texto (4.096 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3-small-8k-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3-medium-128k-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3-medium-4k-instruct | chat_completion | Padrão global |
-
Entrada: texto (4.096 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3.5-vision-Instruct | chat_completion | Padrão global |
-
Entrada: texto e imagem (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3.5-MoE-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3-small-128k-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-3.5-mini-instruct | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, ar, zh, cs, da, nl, fi, fr, de, ele, hu, it, ja, ko, no, pl, pt, ru, es, sv, th, tr e uk - Ferramenta de chamado: não - Formatos de resposta: texto |
Phi-4 | chat_completion | Padrão global |
-
Entrada: texto (16.384 tokens) - Saída: (16.384 tokens) - Idiomas: en, ar, bn, cs, da, de, el, es, fa, fi, fr, gu, ha, he, hi, hu, id, it, ja, jv, kn, ko, ml, mr, nl, no, or, pa, pl, ps, pt, ro, ru, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, e zh - Ferramenta de chamada: Não - Formatos de resposta: texto |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Mistral AI
A IA do Mistral oferece duas categorias de modelos: modelos Premium, incluindo Mistral Large, Mistral Small e modelos abertos, incluindo o Mistral Nemo.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
Ministral-3B | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Mistral-large | chat_completion | Padrão global |
-
Entrada: texto (32.768 tokens) - Saída: (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Mistral-small | chat_completion | Padrão global |
-
Entrada: texto (32.768 tokens) - Saída: texto (4.096 tokens) - Idiomas: fr, de, es, it e en - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Mistral Nemo | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Mistral-large-2407 | chat_completion | Padrão global |
-
Entrada: texto (131.072 tokens) - Saída: (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Mistral-Large-2411 | chat_completion | Padrão global |
-
Entrada: texto (128.000 tokens) - Saída: texto (4.096 tokens) - Idiomas: en, fr, de, es, it, zh, ja, ko, pt, nl e pl - Chamada de ferramenta: Sim - Formatos de resposta: Texto, JSON |
Codestral-2501 | chat_completion | Padrão global |
-
Entrada: texto (262.144 tokens) - Saída: texto (4.096 tokens) - Idiomas: en - Ferramenta de chamado: não - Formatos de resposta: texto |
Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.
Dados de NTT
Tsuzumi é um transformador otimizado para linguagem autorregressiva. As versões ajustadas usam ajuste fino supervisionado (SFT). A Tsuzumi usa os idiomas japonês e inglês com alta eficiência.
Modelar | Tipo | Camada | Funcionalidades |
---|---|---|---|
Tsuzumi-7b | chat_completion | Padrão global |
-
Entrada: texto (8.192 tokens) - Saída: texto (8.192 tokens) - Idiomas: en e jp - Ferramenta de chamado: não - Formatos de resposta: texto |
Próximas etapas
- Comece hoje e implante seu primeiro modelo nos serviços de IA do Azure