Tipos de implantação na inferência de modelo de IA do Azure
A inferência de modelo de IA do Azure nos serviços de IA do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantação: padrão e provisionada. O Standard é oferecido com uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta. O provisionado também é oferecido com uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de taxa de transferência provisionadas na infraestrutura global do Azure.
Todas as implantações podem executar exatamente as mesmas operações de inferência, no entanto, o faturamento, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisa tomar duas decisões principais:
- Necessidades de residência de dados: recursos globais vs. regionais
- Volume de chamadas: padrão vs. provisionado
O suporte aos tipos de implantação varia de acordo com o modelo e o provedor do modelo. Você pode ver qual tipo de implantação (SKU) cada modelo suporta na seção Modelos.
Tipos de implantação global versus regional
Para implantações padrão e provisionadas, você tem a opção de dois tipos de configurações dentro do seu recurso – global ou regional. O padrão global é o ponto de partida recomendado.
As implantações globais aproveitam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obtém os mais altos limites de taxa de transferência inicial e a melhor disponibilidade do modelo com a Global, ao mesmo tempo em que fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão padrão e no padrão global, você pode experimentar uma maior variação de latência. Para clientes que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada.
Nossas implantações globais são o primeiro local para todos os novos modelos e recursos. Os clientes com grandes requisitos de taxa de transferência devem considerar nossa oferta de implantação provisionada.
Standard
As implantações padrão fornecem um modelo de cobrança de pagamento por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região e a taxa de transferência podem ser limitados.
As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.
Apenas os modelos OpenAI do Azure suportam este tipo de implementação.
Norma global
As implantações globais estão disponíveis nos mesmos recursos de serviços de IA do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga em vários recursos.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para aplicativos que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada, se disponível.
Provisionamento global
As implantações globais estão disponíveis nos mesmos recursos de serviços de IA do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.
Apenas os modelos OpenAI do Azure suportam este tipo de implementação.