Partilhar via


Catálogo de modelos e coleções no portal do Azure AI Foundry

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O catálogo de modelos no portal do Azure AI Foundry é o hub para descobrir e usar uma ampla gama de modelos para criar aplicativos de IA generativos. O catálogo de modelos apresenta centenas de modelos em provedores de modelos, como Azure OpenAI Service, Mistral, Meta, Cohere, NVIDIA e Hugging Face, incluindo modelos treinados pela Microsoft. Os modelos de fornecedores que não a Microsoft são Produtos que não são da Microsoft, conforme definido nos Termos de Produto da Microsoft, e estão sujeitos aos termos fornecidos com os modelos.

Coleções de modelos

O catálogo de modelos organiza os modelos em diferentes coleções:

  • Com curadoria do Azure AI: os modelos proprietários e abertos não Microsoft mais populares empacotados e otimizados para funcionar perfeitamente na plataforma Azure AI. A utilização destes modelos está sujeita aos termos de licença dos fornecedores de modelos. Quando você implanta esses modelos no portal do Azure AI Foundry, sua disponibilidade está sujeita ao contrato de nível de serviço (SLA) do Azure aplicável e a Microsoft fornece suporte para problemas de implantação.

    Modelos de parceiros como Meta, NVIDIA e Mistral AI são exemplos de modelos disponíveis nesta coleção no catálogo. Você pode identificar esses modelos procurando uma marca de seleção verde nos blocos de modelo no catálogo. Ou você pode filtrar pela coleção Curated by Azure AI .

  • Modelos do Azure OpenAI disponíveis exclusivamente no Azure: modelos principais do Azure OpenAI disponíveis por meio de uma integração com o Serviço OpenAI do Azure. A Microsoft dá suporte a esses modelos e seu uso de acordo com os termos do produto e SLA para o Serviço OpenAI do Azure.

  • Modelos abertos do hub Hugging Face: centenas de modelos do hub Hugging Face para inferência em tempo real com computação gerenciada. A Hugging Face cria e mantém modelos listados nesta coleção. Para obter ajuda, use o fórum Hugging Face ou o suporte Hugging Face. Saiba mais em Implantar modelos abertos com o Azure AI Foundry.

Você pode enviar uma solicitação para adicionar um modelo ao catálogo de modelos usando este formulário.

Visão geral dos recursos do catálogo de modelos

Você pode pesquisar e descobrir modelos que atendam às suas necessidades através do keyword search e filters. O catálogo de modelos também oferece as métricas de referência de desempenho do modelo para modelos selecionados. Você pode acessar o benchmark clicando Compare Models ou na guia Benchmark do cartão modelo.

No modelo de cartão, você encontrará:

  • Fatos rápidos: você verá as principais informações sobre o modelo em um piscar de olhos.
  • Detalhes: esta página contém informações detalhadas sobre o modelo, incluindo descrição, informações de versão, tipo de dados suportado, etc.
  • Benchmarks: você encontrará métricas de benchmark de desempenho para modelos selecionados.
  • Implantações existentes: se você já implantou o modelo, poderá encontrá-lo na guia Implantações existentes.
  • Exemplos de código: você encontrará os exemplos de código básico para começar a desenvolver aplicativos de IA.
  • Licença: você encontrará informações legais relacionadas ao licenciamento de modelos.
  • Artefactos: este separador será apresentado apenas para modelos abertos. Você pode ver os ativos do modelo e baixá-los através da interface do usuário.

Implantação do modelo: Azure OpenAI

Para obter mais informações sobre modelos do Azure OpenAI, consulte O que é o Serviço Azure OpenAI?.

Implantação do modelo: computação gerenciada e APIs sem servidor

Além dos modelos do Serviço OpenAI do Azure, o catálogo de modelos oferece duas maneiras distintas de implantar modelos para seu uso: computação gerenciada e APIs sem servidor.

As opções de implantação e os recursos disponíveis para cada modelo variam, conforme descrito nas tabelas a seguir. Saiba mais sobre o processamento de dados com as opções de implantação.

Recursos das opções de implantação de modelo

Funcionalidades Computação gerida API sem servidor (pagamento por token)
Experiência de implementação e faturação Os pesos de modelo são implantados em máquinas virtuais dedicadas com computação gerenciada. Uma computação gerenciada, que pode ter uma ou mais implantações, disponibiliza uma API REST para inferência. Você é cobrado pelas horas principais da máquina virtual que as implantações usam. O acesso aos modelos é feito por meio de uma implementação que aprovisiona uma API para aceder aos mesmos. A API fornece acesso ao modelo que a Microsoft hospeda e gerencia, para inferência. Você é cobrado pelas entradas e saídas para as APIs, geralmente em tokens. As informações de preços são fornecidas antes da implantação.
Autenticação de API Chaves e autenticação Microsoft Entra. Apenas chaves.
Segurança dos Conteúdos Use as APIs do serviço de Segurança de Conteúdo do Azure AI. Os filtros da Segurança de Conteúdos do Azure AI estão disponíveis integrados nas APIs de inferência. Os filtros de Segurança de Conteúdo do Azure AI são cobrados separadamente.
Isolamento da rede Configure redes gerenciadas para hubs do Azure AI Foundry. A computação gerenciada segue a configuração do sinalizador de acesso à rede pública (PNA) do hub. Para obter mais informações, consulte a seção Isolamento de rede para modelos implantados por meio de APIs sem servidor, mais adiante neste artigo.

Modelos disponíveis para opções de implementação suportadas

A lista a seguir contém modelos de API sem servidor. Para modelos do Azure OpenAI, consulte Modelos de serviço do Azure OpenAI.

Modelo Computação gerida API sem servidor (pagamento por token)
Modelos da família Llama Llama-3.3-70B-Instruir
Llama-3.2-3B-Instruir
Llama-3.2-1B-Instruir
Lama-3.2-1B
Llama-3.2-90B-Visão-Instruir
Llama-3.2-11B-Visão-Instruir
Llama-3.1-8B-Instruir
Llama-3.1-8B
Llama-3.1-70B-Instruir
Lama-3.1-70B
Llama-3-8B-Instruct
Llama-3-70B
Llama-3-8B
Llama-Guard-3-1B
Llama-Guard-3-8B
Llama-Guard-3-11B-Visão
Lama 2-7b
Lama-2-70b
Llama-2-7b-chat
Llama-2-13b-chat
CódigoLlama-7b-hf
CódigoLlama-7b-Instruct-hf
CódigoLlama-34b-hf
CódigoLlama-34b-Python-hf
CódigoLlama-34b-Instruct-hf
CódigoLlama-13b-Instruir-hf
CódigoLlama-13b-Python-hf
Prompt-Guard-86M
CódigoLlama-70b-hf
Llama-3.3-70B-Instruir
Llama-3.2-90B-Visão-Instruir
Llama-3.2-11B-Visão-Instruir
Llama-3.1-8B-Instruir
Llama-3.1-70B-Instruir
Llama-3.1-405B-Instruir
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Lama 2-7b
Llama-2-7b-chat
Lama-2-70b
Llama-2-70b-chat
Lama-2-13b
Llama-2-13b-chat
Modelos da família Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruir-v0-1
mistral-comunidade-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruir-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruir-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-grande (2402)
Mistral-grande (2407)
Mistral-pequeno
Ministral-3B
Mistral-NeMo
Modelos da família Cohere Não disponível Cohere-comando-r-plus-08-2024
Cohere-comando-r-08-2024
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-inglês
Cohere-embed-v3-multilíngue
Cohere-rerank-v3-inglês
Cohere-rerank-v3-multilíngue
JAIS Não disponível jais-30b-bate-papo
Modelos da família AI21 Não disponível Jamba-1.5-Mini
Jamba-1.5-Grande
Modelos de família de IA para cuidados de saúde MedImageParse
MedImageInsight
CxrReportGen
Virchow
Virchow2
Prisma
BiomedCLIP-PubMedBERT
Microsoft-llava-med-v1.5
m42-saúde-llama3-med4
biomistral-biomistral-7b
Microsoft-biogpt-grande-pub
Microsoft-Biomednlp-Pub
Stanford-CRFM-Biomedlm
MedicalAI-ClinicAlbert
Microsoft-BioGPT
Microsoft-BioGPT-Grande
Microsoft-Biomednlp-Pub
Não Disponível
Modelos da família Microsoft Phi Phi-3-mini-4k-Instruir
Phi-3-mini-128k-Instruir
Phi-3-small-8k-Instruir
Phi-3-small-128k-Instruir
Phi-3-medium-4k-instruir
Phi-3-medium-128k-instruir
Phi-3-vision-128k-Instruir
Phi-3.5-mini-Instruir
Phi-3.5-visão-Instruir
Phi-3.5-MoE-Instruir
Phi-4
Phi-3-mini-4k-Instruir
Phi-3-mini-128k-Instruir
Phi-3-small-8k-Instruir
Phi-3-small-128k-Instruir
Phi-3-medium-4k-instruir
Phi-3-medium-128k-instruir

Phi-3.5-mini-Instruir
Phi-3.5-visão-Instruir
Phi-3.5-MoE-Instruir
Nixtla Não disponível TimeGEN-1

Diagrama que mostra modelos como um serviço e o ciclo de serviço de cálculos gerenciados.

Computação gerida

A capacidade de implantar modelos como computação gerenciada se baseia nos recursos de plataforma do Aprendizado de Máquina do Azure para permitir a integração perfeita da ampla coleção de modelos no catálogo de modelos em todo o ciclo de vida das operações LLM (modelo de linguagem grande).

Diagrama que mostra o ciclo de vida de operações de modelo de linguagem grande.

Disponibilidade de modelos para implantação como computação gerenciada

Os modelos são disponibilizados através dos registos do Azure Machine Learning. Esses registros permitem uma abordagem de aprendizado de máquina em primeiro lugar para hospedar e distribuir ativos do Azure Machine Learning. Esses ativos incluem pesos de modelo, tempos de execução de contêiner para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para benchmarks e amostras.

Os registos baseiam-se numa infraestrutura altamente escalável e pronta para a empresa que:

  • Fornece artefatos de modelo de acesso de baixa latência para todas as regiões do Azure com replicação geográfica interna.

  • Dá suporte a requisitos de segurança corporativa, como limitar o acesso a modelos usando a Política do Azure e a implantação segura usando redes virtuais gerenciadas.

Implantação de modelos para inferência com computação gerenciada

Os modelos disponíveis para implantação em computação gerenciada podem ser implantados na computação gerenciada do Azure Machine Learning para inferência em tempo real. A implantação em computação gerenciada exige que você tenha uma cota de máquina virtual em sua assinatura do Azure para os produtos específicos de que precisa para executar o modelo de forma otimizada. Alguns modelos permitem que você implante em uma cota compartilhada temporariamente para teste de modelo.

Saiba mais sobre a implantação de modelos:

Criação de aplicativos de IA generativa com computação gerenciada

O recurso de fluxo de prompt no Azure Machine Learning oferece uma ótima experiência para prototipagem. Você pode usar modelos implantados com computação gerenciada em fluxo de prompt com a ferramenta Open Model LLM. Você também pode usar a API REST exposta pela computação gerenciada em ferramentas LLM populares como LangChain com a extensão Azure Machine Learning.

Segurança de conteúdo para modelos implantados como computação gerenciada

O serviço Azure AI Content Safety está disponível para uso com computação gerenciada para rastrear várias categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação. Você também pode usar o serviço para rastrear ameaças avançadas, como deteção de risco de jailbreak e deteção de texto de material protegido.

Você pode consultar este bloco de anotações para obter referência à integração com o Azure AI Content Safety for Llama 2. Ou você pode usar a ferramenta Segurança de Conteúdo (Texto) no fluxo de prompt para passar respostas do modelo para a Segurança de Conteúdo do Azure AI para triagem. Você é cobrado separadamente por esse uso, conforme descrito nos preços do Azure AI Content Safety.

Cobrança de API sem servidor (pagamento por token)

Você pode implantar determinados modelos no catálogo de modelos com cobrança paga por token. Esse método de implantação, também chamado de API sem servidor, fornece uma maneira de consumir os modelos como APIs sem hospedá-los em sua assinatura. Os modelos são hospedados em uma infraestrutura gerenciada pela Microsoft, que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar a experiência de provisionamento.

Os modelos disponíveis para implantação como APIs sem servidor com cobrança pré-paga são oferecidos pelo provedor de modelos, mas são hospedados em uma infraestrutura do Azure gerenciada pela Microsoft e acessados via API. Os fornecedores de modelos definem os termos de licença e definem o preço de utilização dos seus modelos. O serviço Azure Machine Learning:

  • Gerencia a infraestrutura de hospedagem.
  • Disponibiliza as APIs de inferência.
  • Atua como processador de dados para prompts enviados e saída de conteúdo por modelos implantados via MaaS.

Saiba mais sobre o processamento de dados para MaaS no artigo sobre privacidade de dados.

Diagrama que mostra o ciclo de serviço do editor do modelo.

Faturação

A experiência de descoberta, assinatura e consumo para modelos implantados por meio de MaaS está no portal do Azure AI Foundry e no estúdio do Azure Machine Learning. Os usuários aceitam os termos de licença para uso dos modelos. As informações de preços para consumo são fornecidas durante a implantação.

Os modelos de fornecedores que não são da Microsoft são faturados através do Azure Marketplace, de acordo com os Termos de Utilização do Microsoft Commercial Marketplace.

Os modelos da Microsoft são faturados através de contadores do Azure como Serviços de Consumo de Primeira Parte. Conforme descrito nos Termos do Produto, você compra Serviços de Consumo de Primeira Parte usando medidores do Azure, mas eles não estão sujeitos aos termos de serviço do Azure. A utilização destes modelos está sujeita aos termos de licença fornecidos.

Modelos de ajuste fino

Alguns modelos também suportam ajuste fino. Para esses modelos, você pode aproveitar a computação gerenciada (visualização) ou o ajuste fino da API sem servidor para personalizar os modelos usando os dados fornecidos. Para obter mais informações, consulte a visão geral do ajuste fino.

RAG com modelos implantados como APIs sem servidor

No portal do Azure AI Foundry, você pode usar índices vetoriais e geração aumentada de recuperação (RAG). Você pode usar modelos que podem ser implantados por meio de APIs sem servidor para gerar incorporações e inferências com base em dados personalizados. Essas incorporações e inferências podem gerar respostas específicas para o seu caso de uso. Para obter mais informações, consulte Criar e consumir índices vetoriais no portal do Azure AI Foundry.

Disponibilidade regional de ofertas e modelos

A cobrança paga por token está disponível apenas para usuários cuja assinatura do Azure pertence a uma conta de cobrança em um país onde o provedor de modelo disponibilizou a oferta. Se a oferta estiver disponível na região relevante, o usuário deverá ter um recurso de projeto na região do Azure onde o modelo está disponível para implantação ou ajuste fino, conforme aplicável. Consulte Disponibilidade de região para modelos em pontos de extremidade de API sem servidor | Azure AI Foundry para obter informações detalhadas.

Segurança de conteúdo para modelos implantados por meio de APIs sem servidor

Para modelos de linguagem implantados por meio de APIs sem servidor, a IA do Azure implementa uma configuração padrão de filtros de moderação de texto do Azure AI Content Safety que detetam conteúdo nocivo, como conteúdo de ódio, automutilação, sexual e violento. Para saber mais sobre filtragem de conteúdo (visualização), consulte Categorias de danos no Azure AI Content Safety.

Gorjeta

A filtragem de conteúdo (visualização) não está disponível para determinados tipos de modelo implantados por meio de APIs sem servidor. Esses tipos de modelo incluem modelos de incorporação e modelos de séries temporais.

A filtragem de conteúdo (visualização) ocorre de forma síncrona à medida que o serviço processa prompts para gerar conteúdo. Você pode ser cobrado separadamente de acordo com os preços do Azure AI Content Safety para esse uso. Você pode desativar a filtragem de conteúdo (visualização) para pontos de extremidade sem servidor individuais:

  • No momento em que você implanta um modelo de idioma pela primeira vez
  • Mais tarde, selecionando a opção de filtragem de conteúdo na página de detalhes da implantação

Suponha que você decida usar uma API diferente da API de Inferência de Modelo de IA do Azure para trabalhar com um modelo implantado por meio de uma API sem servidor. Nessa situação, a filtragem de conteúdo (visualização) não é habilitada, a menos que você a implemente separadamente usando o Azure AI Content Safety.

Para começar a usar o Azure AI Content Safety, consulte Guia de início rápido: analisar conteúdo de texto. Se você não usar a filtragem de conteúdo (visualização) ao trabalhar com modelos implantados por meio de APIs sem servidor, correrá um risco maior de expor os usuários a conteúdo prejudicial.

Isolamento de rede para modelos implantados por meio de APIs sem servidor

Os cálculos gerenciados para modelos implantados como APIs sem servidor seguem a configuração do sinalizador de acesso à rede pública do hub AI Foundry que tem o projeto no qual a implantação existe. Para ajudar a proteger sua computação gerenciada, desative o sinalizador de acesso à rede pública no hub do AI Foundry. Você pode ajudar a proteger a comunicação de entrada de um cliente para sua computação gerenciada usando um ponto de extremidade privado para o hub.

Para definir o sinalizador de acesso à rede pública para o hub AI Foundry:

  • Aceda ao portal do Azure.
  • Procure o grupo de recursos ao qual o hub pertence e selecione seu hub AI Foundry nos recursos listados para esse grupo de recursos.
  • Na página de visão geral do hub, no painel esquerdo, vá para Configurações>de rede.
  • Na guia Acesso público, você pode definir configurações para o sinalizador de acesso à rede pública.
  • Guardar as suas alterações. Suas alterações podem levar até cinco minutos para serem propagadas.

Limitações

  • Se você tiver um hub do AI Foundry com uma computação gerenciada criada antes de 11 de julho de 2024, as computações gerenciadas adicionadas aos projetos nesse hub não seguirão a configuração de rede do hub. Em vez disso, você precisa criar uma nova computação gerenciada para o hub e criar novas implantações de API sem servidor no projeto para que as novas implantações possam seguir a configuração de rede do hub.

  • Se você tiver um hub AI Foundry com implantações MaaS criadas antes de 11 de julho de 2024 e habilitar uma computação gerenciada nesse hub, as implantações MaaS existentes não seguirão a configuração de rede do hub. Para que as implantações de API sem servidor no hub sigam a configuração de rede do hub, você precisa criar as implantações novamente.

  • Atualmente, o suporte do Azure OpenAI On Your Data não está disponível para implantações MaaS em hubs privados, porque os hubs privados têm o sinalizador de acesso à rede pública desabilitado.

  • Qualquer alteração na configuração da rede (por exemplo, ativar ou desativar o sinalizador de acesso à rede pública) pode levar até cinco minutos para se propagar.