Visão geral: Implantar modelos de IA no Azure AI Studio
O catálogo de modelos no estúdio de IA do Azure é o hub para descobrir e usar uma ampla gama de modelos para criar aplicativos de IA generativos. Os modelos precisam ser implantados para disponibilizá-los para receber solicitações de inferência. O processo de interação com um modelo implantado é chamado de inferência. O Azure AI Studio oferece um conjunto abrangente de opções de implantação para esses modelos, dependendo de suas necessidades e requisitos de modelo.
Implantando modelos
As opções de implantação variam dependendo do tipo de modelo:
- Modelos OpenAI do Azure: os modelos OpenAI mais recentes que têm recursos empresariais do Azure.
- Modelos como um serviço: esses modelos não exigem cota de computação da sua assinatura. Essa opção permite que você implante seu Modelo como Serviço (MaaS). Você usa uma implantação de API sem servidor e é cobrado por token de forma pré-pago.
- Modelos abertos e personalizados: O catálogo de modelos oferece acesso a uma grande variedade de modelos em todas as modalidades de acesso aberto. Você pode hospedar modelos abertos em sua própria assinatura com uma infraestrutura gerenciada, máquinas virtuais e o número de instâncias para gerenciamento de capacidade. Há uma ampla gama de modelos do Azure OpenAI, Hugging Face e NVIDIA.
O estúdio de IA do Azure oferece quatro opções de implantação diferentes:
Nome | Azure OpenAI Service | Serviço de inferência de modelo de IA do Azure | API sem servidor | Computação gerida |
---|---|---|---|---|
Que modelos podem ser implementados? | Modelos do Azure OpenAI | Modelos do Azure OpenAI e Modelos como Serviço | Modelos como serviço | Modelos abertos e personalizados |
Recurso de implantação | Recurso do Azure OpenAI | Recurso de serviços de IA do Azure | Recurso do projeto de IA | Recurso do projeto de IA |
Mais adequado quando | Você está planejando usar apenas modelos OpenAI | Você está planejando aproveitar os modelos principais no catálogo de IA do Azure, incluindo OpenAI. | Você está planejando usar um único modelo de um provedor específico (excluindo OpenAI). | Se você planeja usar modelos abertos e tem cota de computação suficiente disponível em sua assinatura. |
Bases de faturação | Uso de token & PTU | Uso de token | Uso detoken 1 | Horasde núcleo de computação 2 |
Instruções de implantação | Implantar no Serviço OpenAI do Azure | Implantar na inferência de modelo de IA do Azure | Implantar na API sem servidor | Implantar na computação gerenciada |
1 Uma infraestrutura de endpoint mínima é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo no sistema pré-pago. Depois de excluir o ponto de extremidade, não serão cobrados mais encargos.
2 A cobrança é feita por minuto, dependendo da camada de produto e do número de instâncias usadas na implantação desde o momento da criação. Depois de excluir o ponto de extremidade, não serão cobrados mais encargos.
Gorjeta
Para saber mais sobre como controlar custos, consulte Monitorar custos para modelos oferecidos por meio do Azure Marketplace.
Como devo pensar nas opções de implantação?
O estúdio de IA do Azure incentiva os clientes a explorar as opções de implantação e escolher a que melhor se adapta às suas necessidades comerciais e técnicas. Em geral, você pode usar o seguinte processo de pensamento:
Comece com as opções de implantação que têm os escopos maiores. Isso permite que você itere e crie protótipos mais rapidamente em seu aplicativo sem ter que reconstruir sua arquitetura cada vez que decidir alterar algo. O serviço de inferência de modelo de IA do Azure é um destino de implantação que dá suporte a todos os modelos emblemáticos no catálogo de IA do Azure, incluindo a inovação mais recente do Azure OpenAI.
Quando você está procurando usar um modelo específico:
Quando você estiver interessado em modelos do Azure OpenAI, use o Serviço OpenAI do Azure, que oferece uma ampla gama de recursos para eles e foi projetado para eles.
Quando você estiver interessado em um modelo específico do Models as a Service e não esperar usar nenhum outro tipo de modelo, use pontos de extremidade de API sem servidor. Eles permitem a implantação de um único modelo sob um conjunto exclusivo de URL e chaves de ponto final.
Quando seu modelo não estiver disponível em Modelos como Serviço e você tiver cota de computação disponível em sua assinatura, use Computação Gerenciada , que oferece suporte à implantação de modelos abertos e personalizados. Ele também permite alto nível de personalização do servidor de inferência de implantação, protocolos e configuração detalhada.
Gorjeta
Cada opção de implantação pode oferecer recursos diferentes em termos de rede, segurança e recursos adicionais, como segurança de conteúdo. Analise a documentação de cada um deles para entender suas limitações.