Compartilhar via


Tipos de implantação na inferência do modelo de IA do Azure

A inferência do modelo de IA do Azure nos serviços de IA do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação: padrão e provisionado. O Standard é oferecido com uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta. O tipo Provisionado também é oferecido com uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de produtividade provisionadas em toda a infraestrutura global do Azure.

Todas as implantações podem executar exatamente as mesmas operações de inferência; no entanto, a cobrança, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisa tomar duas decisões importantes:

  • Necessidades de residência de dados: recursos globais versus regionais
  • Volume de chamadas: padrão versus provisionado

O suporte a tipos de implantação varia de acordo com o modelo e o provedor de modelos.

Tipos de implantação globais versus regionais

Para implantações padrão e provisionadas, você tem uma opção de dois tipos de configurações em seu recurso – global ou regional. O padrão global é o ponto de partida recomendado.

As implantações globais usam a infraestrutura global do Azure, roteiam dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obtém os limites de taxa de transferência iniciais mais altos e a melhor disponibilidade de modelo com o Global, ao mesmo tempo em que fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão global e padrão, você pode experimentar uma variação de latência maior. Para clientes que exigem a menor variação de latência em uso de carga de trabalho grande, recomendamos a compra de taxa de transferência provisionada.

Nossas implantações globais são o primeiro local para todos os novos modelos e recursos. Os clientes com requisitos de taxa de transferência muito grandes devem considerar nossa oferta de implantação provisionada.

Standard

As implantações padrão fornecem um modelo de cobrança paga por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência.

Somente modelos do Azure OpenAI dão suporte a esse tipo de implantação.

Padrão global

As implantações globais estão disponíveis nos mesmos recursos de serviços de IA do Azure que os tipos de implantação não globais, mas permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.

Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Para aplicativos que exigem a menor variação de latência em uso de carga de trabalho grande, recomendamos comprar a taxa de transferência provisionada, se disponível.

Provisionado globalmente

As implantações globais estão disponíveis nos mesmos recursos de serviços de IA do Azure que os tipos de implantação não global, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.

Somente modelos do Azure OpenAI dão suporte a esse tipo de implantação.