Catálogo de modelos e coleções no portal de IA do Azure Foundry

Artigo
01/08/2025

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

O catálogo de modelos na IA do Azure Foundry é o centro para descobrir e usar uma ampla variedade de modelos para criar aplicativos de IA generativos. O catálogo de modelos apresenta centenas de modelos de provedores de modelos, como o Serviço OpenAI do Azure, Mistral, Meta, Cohere, NVIDIA e Hugging Face, incluindo modelos treinados pela Microsoft. Modelos de provedores diferentes da Microsoft são produtos não Microsoft, conforme definido nos Termos de Produto da Microsoft e estão sujeitos aos termos fornecidos com os modelos.

Coleções de modelos

O catálogo de modelos organiza modelos em coleções diferentes:

Coletados pela IA do Azure: os modelos proprietários e de peso aberto mais populares que não são da Microsoft, empacotados e otimizados para funcionar perfeitamente na plataforma de IA do Azure. O uso desses modelos está sujeito aos termos de licença do provedor de modelo. Quando você implanta esses modelos no portal de IA do Azure Foundry, a disponibilidade está sujeita ao SLA (contrato de nível de serviço) do Azure aplicável, e a Microsoft fornece suporte para problemas de implantação.

Modelos de parceiros como Meta, NVIDIA e Mistral AI são exemplos de modelos disponíveis nesta coleção no catálogo. Você pode identificar esses modelos procurando uma marca de seleção verde nos blocos de modelo no catálogo. Ou você pode filtrar pela coleção Coletado pela IA do Azure.
Modelos do OpenAI do Azure, disponíveis exclusivamente no Azure: modelos emblemáticos do OpenAI do Azure através de uma integração com o Serviço OpenAI do Azure. A Microsoft dá suporte a esses modelos e ao uso deles de acordo com os termos do produto e ao SLA para o Serviço OpenAI do Azure.
Modelos abertos do hub Hugging Face: centenas de modelos do hub Hugging Face para inferência em tempo real com computação gerenciada. O Hugging Face cria e mantém modelos listados nessa coleção. Para obter ajuda, use o fórum do Hugging Face ou o suporte do Hugging Face. Saiba mais em Implantar modelos abertos com a IA do Azure Foundry.

Você pode enviar uma solicitação para adicionar um modelo ao catálogo de modelos usando este formulário.

Visão geral dos recursos do catálogo de modelos

Você pode pesquisar e descobrir modelos que atendem às suas necessidades por meio de keyword search e filters. O catálogo de modelos também oferece as métricas de parâmetro de comparação de desempenho do modelo para modelos selecionados. Você pode acessar o parâmetro de comparação clicando em Compare Models ou na guia Parâmetros de comparação do cartão de modelo.

No cartão de modelo, você encontrará:

Fatos rápidos: você verá as principais informações sobre o modelo rapidamente.
Detalhes: esta página contém as informações detalhadas sobre o modelo, incluindo descrição, informações de versão, tipo de dados com suporte etc.
Parâmetros de comparação: você encontrará métricas de parâmetro de comparação de desempenho para modelos selecionados.
Implantações existentes: se você já implantou o modelo, poderá encontrá-lo na guia Implantações existentes.
Exemplos de código: você encontrará os exemplos de código básicos para começar a usar o desenvolvimento de aplicativos de IA.
Licença: você encontrará informações legais relacionadas ao licenciamento do modelo.
Artefatos: essa guia será exibida somente para modelos abertos. Você pode ver os ativos do modelo e baixá-los por meio da interface do usuário.

Implantação de modelo: OpenAI do Azure

Para obter informações sobre modelos do OpenAI do Azure, consulte O que é o Serviço OpenAI do Azure?.

Implantação de modelo: computação gerenciada e API sem servidor

Além dos modelos do Serviço OpenAI do Azure, o catálogo de modelos oferece duas maneiras distintas de implantar modelos para seu uso: computação gerenciada e APIs sem servidor.

As opções de implantação e os recursos disponíveis para cada modelo variam, conforme descrito nas tabelas a seguir. Saiba mais sobre o processamento de dados com as opções de implantação.

Funcionalidades das opções de implantação de modelo

Recursos	Computação gerenciada	API sem servidor (pay-per-token)
Experiência de implantação e faturamento	Os pesos do modelo são implantados em máquinas virtuais dedicadas com computação gerenciada. Uma computação gerenciada, que pode ter uma ou mais implantações, disponibiliza uma API REST para inferência. Você será cobrado pelas horas principais da máquina virtual usadas pelas implantações.	O acesso aos modelos é feito por meio de uma implantação que provisiona uma API para acessar o modelo. A API fornece acesso ao modelo hospedado e gerenciado pela Microsoft para inferência. Você será cobrado por entradas e saídas para as APIs, normalmente em tokens. As informações de preços são fornecidas antes da implantação.
Autenticação da API	Chaves e autenticação do Microsoft Entra.	Somente chaves.
Segurança de conteúdo	Utilize APIs do serviço Segurança de Conteúdo da IA do Azure.	Os filtros IA do Azure Content Safety estão disponíveis integrados com APIs de inferência. Os filtros da Segurança de Conteúdo da IA do Azure são cobrados separadamente.
Isolamento da rede	Configurar redes gerenciadas para hubs de IA do Azure Foundry.	A computação gerenciada segue a configuração do sinalizador de acesso à rede pública (PNA) do seu hub. Para obter mais informações, veja a seção Isolamento de rede para modelos implantados por meio de APIs sem servidor mais adiante neste artigo.

Modelos disponíveis para opções de implantação com suporte

A lista a seguir contém modelos de API sem servidor. Para modelos do OpenAI do Azure, consulte Modelos de Serviço do OpenAI do Azure.

Modelar	Computação gerenciada	API sem servidor (pay-per-token)
Modelos da família AI21	Não disponível	Jamba-1.5-Mini Jamba-1.5-Large
Modelos familiares coerentes	Não disponível	Cohere-command-r-plus-08-2024 Cohere-command-r-08-2024 Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual Cohere-rerank-v3-english Cohere-rerank-v3-multilingual
Modelos do DeepSeek da Microsoft	Não disponível	DeepSeek-R1
Gretel	Não disponível	Gretel-Navigator
Modelos de Família de IA de Serviços de Saúde	MedImageParse MedImageInsight CxrReportGen Virchow Virchow2 Prism BiomedCLIP-PubMedBERT microsoft-llava-med-v1.5 m42-health-llama3-med4 biomistral-biomistral-7b microsoft-biogpt-large-pub microsoft-biomednlp-pub stanford-crfm-biomedlm medicalai-clinicalbert microsoft-biogpt microsoft-biogpt-large microsoft-biomednlp-pub	Não disponível
JAIS	Não disponível	jais-30b-chat
Modelos da família Meta Llama	Llama-3.3-70B-Instruct Llama-3.2-3B-Instruct Llama-3.2-1B-Instruct Llama-3.2-1B Llama-3.2-90B-Vision-Instruct Llama-3.2-11B-Vision-Instruct Llama-3.1-8B-Instruct Llama-3.1-8B Llama-3.1-70B-Instruct Llama-3.1-70B Llama-3-8B-Instruct Llama-3-70B Llama-3-8B Llama-Guard-3-1B Llama-Guard-3-8B Llama-Guard-3-11B-Vision Llama-2-7b Llama-2-70b Llama-2-7b-chat Llama-2-13b-chat CodeLlama-7b-hf CodeLlama-7b-Instruct-hf CodeLlama-34b-hf CodeLlama-34b-Python-hf CodeLlama-34b-Instruct-hf CodeLlama-13b-Instruct-hf CodeLlama-13b-Python-hf Prompt-Guard-86M CodeLlama-70b-hf	Llama-3.3-70B-Instruct Llama-3.2-90B-Vision-Instruct Llama-3.2-11B-Vision-Instruct Llama-3.1-8B-Instruct Llama-3.1-70B-Instruct Llama-3.1-405B-Instruct Llama-3-8B-Instruct Llama-3-70B-Instruct Llama-2-7b Llama-2-7b-chat Llama-2-70b Llama-2-70b-chat Llama-2-13b Llama-2-13b-chat
Modelos da família Phi da Microsoft	Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3-vision-128k-Instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct Phi-4	Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct Phi-4
Modelos da família Mistral	mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruct-v0-1 mistral-community-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruct-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruct-v01 mistralai-Mistral-7B-Instruct-v01	Mistral-large (2402) Mistral-large (2407) Mistral-small Ministral-3B Mistral-NeMo
Nixtla	Não disponível	TimeGEN-1

Ciclo de vida do modelo: substituição e desativação

Os modelos de IA evoluem rapidamente e, quando uma nova versão ou um novo modelo com recursos atualizados na mesma família de modelos estiver disponível, os modelos mais antigos poderão ser desativados no catálogo de modelos do AI Foundry. Para permitir uma transição suave para uma versão de modelo mais recente, alguns modelos fornecem aos usuários a opção de habilitarem as atualizações automáticas. Para saber mais sobre o ciclo de vida de diferentes modelos, datas de aposentadoria de modelos futuros e modelos e versões de substituição sugeridos, consulte:

Computação gerenciada

A capacidade de implantar modelos como computação gerenciada se baseia nos recursos de plataforma do Azure Machine Learning para permitir a integração perfeita da ampla coleção de modelos no catálogo de modelos em todo o ciclo de vida das operações de modelos de linguagem grandes (LLM).

Disponibilidade de modelos para implantação como computação gerenciada

Os modelos são disponibilizados por meio de registros do Azure Machine Learning. Esses registros permitem uma abordagem de machine learning para hospedagem e distribuição de ativos do Azure Machine Learning. Esses ativos incluem pesos do modelo, runtimes de contêiner para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para parâmetros de comparação e exemplos.

Os registros se baseiam em uma infraestrutura altamente escalonável e pronta para a empresa que:

Fornece artefatos de modelo de acesso de baixa latência para todas as regiões do Azure com replicação geográfica integrada.
Dá suporte aos requisitos de segurança empresarial, como limitar o acesso a modelos usando o Azure Policy e a implantação segura com redes virtuais gerenciadas.

Implante modelos para inferência com a computação gerenciada

Os modelos disponíveis para implantação no processamento gerenciado podem ser implantados no processamento gerenciado do Azure Machine Learning para inferência em tempo real. A implantação na computação gerenciada exige que você tenha uma cota de máquina virtual em sua assinatura do Azure para os produtos específicos que você precisa para executar o modelo de maneira ideal. Alguns modelos permitem implantar em cota compartilhada temporariamente para teste do modelo.

Saiba mais sobre como implantar modelos:

Crie aplicativos de IA generativa com a computação gerenciada

O recurso prompt flow no Azure Machine Learning oferece uma ótima experiência para protótipos. Você pode usar modelos implantados com computação gerenciada no prompt flow com a ferramenta Open Model LLM. Você também pode usar a API REST exposta pela computação gerenciada em ferramentas LLM populares como LangChain com a extensão Azure Machine Learning.

Segurança de conteúdo para modelos implantados como computação gerenciada

O serviço Segurança de Conteúdo de IA do Azure está disponível para uso com computação gerenciada filtrar várias categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação. Você também pode usar o serviço para filtrar ameaças avançadas, como detecção de risco de jailbreak e detecção de texto de material protegido.

Você pode consultar este notebook para a integração de referência com a Segurança de Conteúdo de IA do Azure para Llama 2. Ou você pode usar a ferramenta Segurança de Conteúdo (Texto) no prompt flow para passar respostas do modelo para a Segurança de Conteúdo de IA do Azure para filtragem. Você é cobrado separadamente por esse uso, conforme descrito em preços de Segurança de Conteúdo de IA do Azure.

Cobrança da API sem servidor (pagamento por token)

Você pode implantar determinados modelos no catálogo de modelos com cobrança paga por token. Esse método de implantação, também chamado de API sem servidor, fornece uma maneira de consumir os modelos como APIs sem hospedá-los em sua assinatura. Os modelos são hospedados na infraestrutura gerenciada pela Microsoft, o que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar a experiência de provisionamento.

Os modelos disponíveis para implantação como APIs sem servidor com Pagamento Conforme o Uso são oferecidos pelo provedor de modelo, mas hospedados na infraestrutura do Azure gerenciada pela Microsoft e acessados por meio da API. Os provedores de modelo definem os termos de licença e definem o preço para o uso de seus modelos. O Serviço do Azure Machine Learning:

Gerencia a infraestrutura de hospedagem.
Disponibiliza as APIs de inferência.
Atua como o processador de dados para prompts enviados e saída de conteúdo por modelos implantados por meio do MaaS.

Saiba mais sobre processamento de dados para MaaS no artigo sobre privacidade de dados.

Observação

As assinaturas do Provedor de Soluções na Nuvem (CSP) não têm a capacidade de comprar modelos de implantações de API sem servidor (MaaS).

Billing

A experiência de descoberta, assinatura e consumo para modelos implantados via MaaS está no portal de IA do Azure Foundry e no Estúdio do Azure Machine Learning. Os usuários aceitam termos de licença para uso dos modelos. As informações de preços para consumo são fornecidas durante a implantação.

Modelos de provedores que não são da Microsoft são cobrados por meio do Azure Marketplace, de acordo com o Termos de Uso do Marketplace Comercial da Microsoft.

Os modelos da Microsoft são cobrados por meio de medidores do Azure como Serviços de Consumo de Primeira Parte. Conforme descrito nos Termos do Produto, você compra Serviços de Consumo de Primeira Parte usando medidores do Azure, mas eles não estão sujeitos aos termos de serviço do Azure. O uso desses modelos está sujeito aos termos de licença fornecidos.

Modelos de ajuste fino

Determinados modelos também dão suporte ao ajuste fino. Para esses modelos, você pode aproveitar a computação gerenciada (versão prévia) ou o ajuste fino da API sem servidor para adaptar os modelos usando os dados fornecidos. Para obter mais informações, consulte a Visão geral de ajuste fino.

RAG com modelos implantados como APIs sem servidor

No portal de IA do Azure Foundry, você pode usar índices de vetor e RAG (geração aumentada de recuperação). Você pode usar modelos que podem ser implantados por meio de APIs sem servidor para gerar inserções e inferências com base em dados personalizados. Essas inserções e inferências podem gerar respostas específicas ao seu caso de uso. Para saber mais, confira Criar e consumir índices de vetor no portal de IA do Azure Foundry.

Disponibilidade regional de ofertas e modelos

A cobrança por token está disponível apenas para usuários cuja assinatura do Azure pertence a uma conta de cobrança em um país/região onde o provedor do modelo disponibilizou a oferta. Se a oferta estiver disponível na região relevante, o usuário precisará ter um recurso de projeto na região do Azure em que o modelo está disponível para implantação ou ajuste fino, conforme aplicável. Confira Disponibilidade de regiões para modelos em pontos de extremidade de API sem servidor | IA do Azure Foundry para obter informações detalhadas.

Segurança de conteúdo para modelos implantados por meio de APIs sem servidor

Para modelos de linguagem implantados por meio de APIs sem servidor, o Azure AI implementa uma configuração padrão de filtros de moderação de texto da Segurança de Conteúdo de IA do Azure que detecta conteúdos prejudiciais, como conteúdo de ódio, de automutilação, sexual e violento. Para saber mais sobre a filtragem de conteúdo (versão prévia), veja Categorias de danos na Segurança de Conteúdo de IA do Azure.

Dica

A filtragem de conteúdo (versão prévia) não está disponível para determinados tipos de modelo que são implantados por meio de APIs sem servidor. Esses tipos de modelo incluem modelos de inserção e modelos de série temporal.

A filtragem de conteúdo (versão prévia) ocorre de forma síncrona à medida que o serviço processa solicitações para gerar conteúdo. Você pode ser cobrado separadamente de acordo com preços de Segurança de Conteúdo de IA do Azure para tal uso. Você pode desabilitar a filtragem de conteúdo (versão prévia) para pontos de extremidade individuais sem servidor:

No momento em que você implanta um modelo de linguagem pela primeira vez
Posteriormente, selecionando a alternância de filtragem de conteúdo na página de detalhes da implantação

Suponha que você decida usar uma API diferente da API de Inferência do Modelo de IA do Azure para trabalhar com um modelo implantado por meio de uma API sem servidor. Nessa situação, a filtragem de conteúdo (versão prévia) não estará habilitada, a menos que você a implemente separadamente usando a Segurança de Conteúdo de IA do Azure.

Para começar a usar a Segurança de Conteúdo de IA do Azure, confira Início Rápido: Analisar conteúdo de texto. Se não usar a filtragem de conteúdo (versão prévia) ao trabalhar com modelos que são implantados por meio de APIs sem servidor, você correrá um risco mais alto de expor os usuários a conteúdos prejudiciais.

Isolamento de rede para modelos implantados por meio de APIs sem servidor

Os pontos de extremidade para modelos implantados como APIs sem servidor seguem a configuração do sinalizador de acesso à rede pública do hub do Azure AI Foundry que tem o projeto no qual a implantação existe. Para ajudar a proteger o ponto de extremidade da API sem servidor, desabilite o sinalizador de acesso à rede pública no hub do Azure AI Foundry. Você pode ajudar a proteger a comunicação de entrada de um cliente para o ponto de extremidade usando um ponto de extremidade privado para o hub.

Para definir o sinalizador de acesso à rede pública para o hub do Azure AI Foundry:

Acesse o portal do Azure.
Pesquise o grupo de recursos ao qual o hub pertence e selecione seu hub do Azure AI Foundry nos recursos listados para esse grupo de recursos.
Na página de visão geral do hub, no painel esquerdo, vá para Configurações>Rede.
Na aba Acesso público, você pode configurar as definições para o sinalizador de acesso à rede pública.
Salve suas alterações. Suas alterações podem levar até cinco minutos para serem propagadas.

Limitações

Se você tiver um hub do Azure AI Foundry com um ponto de extremidade privado criado antes de 11 de julho de 2024, os pontos de extremidade de API sem servidor adicionados a projetos neste hub não seguirão a configuração de rede do hub. Em vez disso, é necessário criar um novo ponto de extremidade privado para o hub e criar novas implementações de API sem servidor no projeto para que as novas implantação possam seguir a configuração de rede do hub.
Se você tiver um hub do Azure AI Foundry com implantações MaaS criadas antes de 11 de julho de 2024 e habilitar um ponto de extremidade privado nesse hub, as implantações de API sem servidor existentes não seguirão a configuração de rede do hub. Para que as implantação de API sem servidor no hub sigam a configuração de rede do hub, é necessário criar as implementações novamente.
Atualmente, o suporte ao Azure OpenAI On Your Data não está disponível para implantações de API sem servidor em hubs privados, pois os hubs privados têm o sinalizador de acesso à rede pública desabilitado.
Qualquer alteração na configuração de rede (por exemplo, habilitar ou desabilitar o sinalizador de acesso à rede pública) pode levar até cinco minutos para ser propagada.

Compartilhar via

Catálogo de modelos e coleções no portal de IA do Azure Foundry

Coleções de modelos

Visão geral dos recursos do catálogo de modelos

Implantação de modelo: OpenAI do Azure

Implantação de modelo: computação gerenciada e API sem servidor

Funcionalidades das opções de implantação de modelo

Modelos disponíveis para opções de implantação com suporte

Ciclo de vida do modelo: substituição e desativação

Computação gerenciada

Disponibilidade de modelos para implantação como computação gerenciada

Implante modelos para inferência com a computação gerenciada

Crie aplicativos de IA generativa com a computação gerenciada

Segurança de conteúdo para modelos implantados como computação gerenciada

Cobrança da API sem servidor (pagamento por token)

Billing

Modelos de ajuste fino

RAG com modelos implantados como APIs sem servidor

Disponibilidade regional de ofertas e modelos

Segurança de conteúdo para modelos implantados por meio de APIs sem servidor

Isolamento de rede para modelos implantados por meio de APIs sem servidor

Limitações

Comentários

Recursos adicionais

Compartilhar via

Catálogo de modelos e coleções no portal de IA do Azure Foundry

Coleções de modelos

Visão geral dos recursos do catálogo de modelos

Implantação de modelo: OpenAI do Azure

Implantação de modelo: computação gerenciada e API sem servidor

Funcionalidades das opções de implantação de modelo

Modelos disponíveis para opções de implantação com suporte

Ciclo de vida do modelo: substituição e desativação

Computação gerenciada

Disponibilidade de modelos para implantação como computação gerenciada

Implante modelos para inferência com a computação gerenciada

Crie aplicativos de IA generativa com a computação gerenciada

Segurança de conteúdo para modelos implantados como computação gerenciada

Cobrança da API sem servidor (pagamento por token)

Billing

Modelos de ajuste fino

RAG com modelos implantados como APIs sem servidor

Disponibilidade regional de ofertas e modelos

Segurança de conteúdo para modelos implantados por meio de APIs sem servidor

Isolamento de rede para modelos implantados por meio de APIs sem servidor

Limitações

Conteúdo relacionado

Comentários

Recursos adicionais