Integração de unidades de produtividade provisionadas
Este artigo orienta você pelo processo de integração de PTU (unidades de produtividade provisionadas). Depois de concluir a integração inicial, é recomendável consultar o Guia de introdução às PTUs.
Quando usar unidades de produtividade provisionadas (PTU)
Você deve considerar mudar de implantações padrão para implantações provisionadas quando tiver requisitos de taxa de transferência e latência bem definidos e previsíveis. Normalmente, isso ocorre quando o aplicativo está pronto para produção ou já foi implantado em produção e há uma compreensão do tráfego esperado. Isso permite que os usuários prevejam com precisão a capacidade necessária e evitem cobranças inesperadas.
Cenários típicos de PTU
- Um aplicativo pronto para produção ou em produção.
- Um aplicativo que tem expectativas previsíveis de capacidade/uso.
- Um aplicativo tem requisitos confidenciais de latência/tempo real.
Observação
Em casos de uso de agente e chamada de função, o uso de token pode ser variável. Você deve entender o uso esperado de Tokens por Minuto (TPM) em detalhes antes de migrar as cargas de trabalho para o PTU.
Dimensionamento e estimativa: implantações provisionadas
Determinar a quantidade certa de taxa de transferência provisionada, ou PTUs, necessária para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo. Se você não estiver familiarizado com as diferentes abordagens disponíveis para estimar a taxa de transferência no nível do sistema, examine as recomendações de estimativa de taxa de transferência no nível do sistema em nossa documentação de desempenho e latência. Esta seção descreve como usar calculadoras de capacidade do OpenAI do Azure para estimar o número de PTUs necessárias para dar suporte a uma determinada carga de trabalho.
Estimar unidades de taxa de transferência provisionadas e custo
Para obter uma estimativa rápida da carga de trabalho usando o TPM de entrada e saída, aproveite o Planejador de Capacidade interno na seção de detalhes da implantação da tela de diálogo de implantação. O Planejador de Capacidade interno faz parte do fluxo de trabalho de implantação para ajudar a simplificar a colocação em escala e a alocação de cota para uma implantação de PTU para uma determinada carga de trabalho. Para obter mais informações sobre como identificar e estimar dados do TPM, examine as recomendações em nossa documentação de desempenho e latência.
Depois de preencher os dados de entrada e saída do TPM na calculadora de capacidade interna, selecione o botão Calcular para exibir a sua recomendação de alocação de PTU.
Para estimar a capacidade provisionada usando dados de nível de solicitação, abra o planejador de capacidade no Azure AI Foundry. A calculadora de capacidade está em Recursos compartilhados>Cota de modelo>Provisionado do OpenAI do Azure.
A opção Provisionado e o planejador de capacidade só estão disponíveis em determinadas regiões no painel Cota, se essa opção não for exibida ela será disponibilizada ao definir a região de cota para Suécia Central. Insira os seguintes parâmetros baseados na sua carga de trabalho.
Entrada | Descrição |
---|---|
Modelar | Modelo do OpenAI que você planeja usar. Por exemplo: GPT-4 |
Versão | Versão do modelo que você planeja usar, por exemplo, 0614 |
Pico de chamadas por minuto | O número de chamadas por minuto que devem ser enviadas para o modelo |
Tokens na chamada de prompt | O número de tokens no prompt para cada chamada no modelo. Chamadas com prompts maiores usam mais da implantação de PTU. Atualmente, essa calculadora pressupõe um único valor de prompt para cargas de trabalho com ampla variação. Recomendamos comparar sua implantação em seu tráfego para determinar a estimativa mais precisa da PTU necessária para sua implantação. |
Tokens na resposta do modelo | O número de tokens gerados de cada chamada para o modelo. Chamadas com tamanhos de geração maiores usarão mais da implantação de PTU. Atualmente, essa calculadora pressupõe um único valor de prompt para cargas de trabalho com ampla variação. Recomendamos comparar sua implantação em seu tráfego para determinar a estimativa mais precisa da PTU necessária para sua implantação. |
Após preencher os dados necessários, selecione o botão Calcular na coluna de saída.
Os valores na coluna de saída são o valor estimado das unidades PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades de PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala de PTU mais próximo. O segundo valor de saída representa as unidades de PTU estimadas brutas necessárias para a carga de trabalho. Os totais de token são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)
.
Observação
As calculadoras de capacidade fornecem uma estimativa com base em critérios de entrada simples. A maneira mais precisa de determinar sua capacidade é comparar uma implantação com uma carga de trabalho representativa para seu caso de uso.
Noções básicas sobre o modelo de aquisição de taxa de transferência provisionada
O Provisionado do OpenAI do Azure e o Provisionado Global são comprados sob demanda, por hora, com base no número de PTUs implantadas, com descontos substanciais disponíveis por meio da compra de Reservas do Azure.
O modelo por hora é útil para necessidades de implantação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon. No entanto, os descontos oferecidos pela Reserva do Azure para o Serviço OpenAI do Azure Provisionado e Globalmente Provisionado são consideráveis. A maioria dos clientes que utilizam esses serviços de forma consistente e a longo prazo tende a ver um modelo reservado como uma proposta de valor mais vantajosa.
Observação
Os clientes do OpenAI do Azure Provisionado integrados antes da atualização de autoatendimento de agosto usam um modelo de compra chamado modelo de Compromisso. Esses clientes podem continuar usando esse modelo de compra mais antigo junto com o modelo de compra por hora/reserva. O modelo de Compromisso não está disponível para novos clientes. Para obter detalhes sobre o modelo de compra de Compromisso e as opções de coexistência e migração, consulte a Atualização de Agosto do OpenAI do Azure Provisionado.
Uso por hora
As implantações provisionadas e globalmente provisionadas são cobradas por hora (US$/PTU/h) no número de PTUs que foram implantadas. Por exemplo, uma implantação de 300 PTU será cobrada a taxa por hora vezes 300. Todos os preços do OpenAI do Azure estão disponíveis na Calculadora de Preços do Azure.
Se uma implantação existir por uma hora parcial, ela receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante a hora. Por exemplo, uma implantação que existe por 15 minutos durante uma hora receberá 1/4 do preço por hora.
Se o tamanho da implantação for alterado, os custos da implantação serão ajustados para corresponder ao novo número de PTUs.
O pagamento por hora para implantações provisionadas e globalmente provisionadas é ideal para cenários de implantação de curto prazo. Por exemplo: comparação de qualidade e desempenho de novos modelos ou aumento temporário da capacidade de PTU para cobrir um evento como um hackathon.
No entanto, os clientes que necessitam de uso a longo prazo de implantações provisionadas e globalmente provisionadas podem economizar bastante mês ao adquirir um desconto de prazo com uma Reserva do Azure, como será abordado na próxima seção.
Observação
Não é recomendável dimensionar as implantações de produção de acordo com o tráfego de entrada e pagar por elas apenas por hora. Há dois motivos para isso:
- A economia de custos obtida com a compra de uma Reserva do Azure para OpenAI do Azure Provisionada é significativa e, em muitos casos, será mais barato manter uma implantação dimensionada para o volume de produção total pago por meio de uma reserva do que dimensionar a implantação com tráfego de entrada.
- Ter PTUs (cota provisionada) não utilizada não garante que a capacidade estará disponível para dar suporte ao aumento do tamanho da implantação quando necessário. A cota limita o número máximo de PTUs que pode ser implantado, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modal muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Como resultado, é recomendável manter uma implantação permanente para cobrir suas necessidades de tráfego (pagas por meio de uma reserva).
- As cobranças por implantações em um recurso excluído continuarão até que o recurso seja limpo. Para evitar isso, exclua a implantação de um recurso antes de excluir o recurso. Para mais informações, consulte Recuperar ou limpar recursos excluídos dos Serviços de IA do Azure.
Reservas do Azure para implantações provisionadas do OpenAI do Azure
É possível adquirir descontos sobre o preço de uso por hora ao comprar uma Reserva do Azure para OpenAI do Azure Provisionado. Uma Reserva do Azure é um mecanismo de desconto a prazo compartilhado por muitos produtos do Azure. Por exemplo, Computação e Cosmos DB. Tanto para o OpenAI do Azure Provisionado quanto para o Globalmente Provisionado, a reserva oferece um desconto ao se comprometer a pagar um número fixo de PTUs por um período de um mês ou um ano.
As Reservas do Azure são adquiridas por meio do portal do Azure, não do Link do portal do Azure AI Foundry para o portal de reserva do Azure.
As reservas são adquiridas regionalmente e podem ter escopo flexível para cobrir o uso de um grupo de implantações. Os escopos de reserva incluem:
Grupos de recursos individuais ou assinaturas
Um grupo de assinaturas em um Grupo de Gerenciamento
Todas as assinaturas em uma conta de cobrança
Novas reservas podem ser adquiridas para abranger o mesmo escopo que as reservas existentes, para permitir o desconto de novas implantações provisionadas. O escopo das reservas existentes também pode ser atualizado a qualquer momento sem penalidade, por exemplo, para cobrir uma nova assinatura.
As reservas podem ser canceladas após a compra, mas os créditos são limitados.
Se o tamanho das implantações provisionadas dentro do escopo de uma reserva exceder a quantidade da reserva, o excesso será cobrado por hora. Por exemplo, se houver implantações no valor de 250 PTUs no escopo de uma reserva de 200 PTU, 50 PTUs serão cobradas por hora até que os tamanhos de implantação sejam reduzidos para 200 PTUs ou uma nova reserva seja criada para cobrir os 50 restantes.
As reservas garantem um preço com desconto para o prazo selecionado. Eles não reservam capacidade no serviço ou garantem que ele estará disponível quando uma implantação for criada. É altamente recomendável que os clientes criem implantações antes de comprar uma reserva para impedir a compra excessiva de uma reserva.
Importante
A disponibilidade de capacidade para implantações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para impedir que você compre uma reserva para mais PTUs do que pode usar, crie implantações primeiro e, em seguida, compre a Reserva do Azure para cobrir as PTUs implantadas. Essa melhor prática garantirá que você possa aproveitar totalmente o desconto de reserva e evitar a compra de um compromisso de termo que você não possa utilizar.
Os requisitos de política de locatário e função do Azure para comprar uma reserva são diferentes daqueles necessários para criar uma implantação ou um recurso do OpenAI do Azure. Verifique a autorização para comprar reservas com antecedência. Consulte a Documentação de reserva provisionada do OpenAI do Azure para obter mais detalhes.
Importante: dimensionar reservas provisionadas do OpenAI do Azure
Os valores de PTU em compras de reserva são independentes de PTUs alocadas em cota ou usados em implantações. É possível comprar uma reserva para mais PTUs do que você tem em cota ou pode implantar para a região, o modelo ou a versão desejados. Os créditos para a compra excessiva de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantenham seus tamanhos de reserva de acordo com suas PTUs implantadas.
A melhor prática é sempre comprar uma reserva depois que as implantações tiverem sido criadas. Isso impede a compra de uma reserva e, em seguida, descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.
Para ajudar os clientes a comprar os valores de reserva corretos. O número total de PTUs em uma assinatura e região que podem ser cobertas por uma reserva está listado na página Cotas do Azure AI Foundry. Consulte a mensagem "PTUs disponíveis para reserva".
Gerenciar reservas do Azure
Depois que uma reserva é criada, é uma melhor prática monitorá-la para garantir que ela esteja recebendo o uso esperado. Isso pode ser feito por meio do Portal de Reservas do Azure ou do Azure Monitor. Detalhes sobre estes tópicos e outros podem ser encontrados aqui:
- Exibir a utilização de reservas do Azure
- Exibir transações de compra e reembolso de reservas do Azure
- Exibir custos de benefício amortizados
- Cobrar de volta os custos de reservas do Azure
- Renovar automaticamente as reservas do Azure