Planejar o gerenciamento de custos para inferência de modelo nos Serviços de IA do Azure
Este artigo descreve como você pode planejar e gerenciar custos para inferência de modelo nos Serviços de IA do Azure. Depois de começar a usar a inferência de modelo nos recursos dos Serviços de IA do Azure, use os recursos de Gerenciamento de Custos para definir orçamentos e monitorar custos.
Embora este artigo seja sobre planejamento e gerenciamento de custos para inferência de modelo nos Serviços de IA do Azure, você será cobrado por todos os serviços e recursos do Azure usados em sua assinatura do Azure.
Pré-requisitos
- A análise de custos no Gerenciamento de Custos dá suporte à maioria dos tipos de conta do Azure, mas não a todos. Para ver a lista completa dos tipos de contas suportados, consulte Compreender os dados do Cost Management.
- Para exibir dados de custo, você precisa de pelo menos acesso de leitura para uma conta do Azure. Para obter informações sobre como atribuir acesso a dados de gerenciamento de custos, consulte Atribuir acesso a dados.
Compreender o modelo de faturamento de inferência de modelo
Os modelos implantados nos Serviços de IA do Azure são cobrados por 1.000 tokens. Os modelos de linguagem compreendem e processam o texto dividindo-o em tokens. Para referência, cada token tem aproximadamente quatro carateres para texto típico em inglês. Os custos por token variam dependendo da série de modelos escolhida. Os modelos que podem processar imagens também dividem as imagens em tokens. O número de tokens por imagem depende do modelo e da resolução da imagem de entrada.
Os custos dos tokens são referentes à entrada e saída. Por exemplo, suponha que você tenha um exemplo de código JavaScript de 1.000 tokens que você pede a um modelo para converter em Python. Seriam cobrados aproximadamente 1.000 tokens pela solicitação de entrada inicial enviada e mais 1.000 tokens pela saída recebida em resposta, totalizando 2.000 tokens.
Na prática, para este tipo de chamada de conclusão, a entrada/saída do token não seria perfeitamente 1:1. Uma conversão de uma linguagem de programação para outra pode resultar em uma saída mais longa ou mais curta, dependendo de muitos fatores. Um desses fatores é o valor atribuído ao max_tokens
parâmetro.
Discriminação de custos
Para entender o detalhamento do que compõe o custo, pode ser útil usar a ferramenta Análise de Custos no portal do Azure. Siga estas etapas para entender o custo da inferência:
Vá para Azure AI Foundry Portal.
No canto superior direito da tela, selecione o nome do recurso dos Serviços de IA do Azure ou, se estiver trabalhando em um projeto de IA, o nome do projeto.
Selecione o nome do projeto. O portal do Azure é aberto em uma nova janela.
Em Gerenciamento de custos, selecione Análise de custos
Por padrão, a análise de custos tem como escopo o grupo de recursos selecionado.
Importante
É importante definir o escopo da Análise de Custos para o grupo de recursos onde o recurso dos Serviços de IA do Azure está implantado. Os medidores de custo associados a alguns provedores de modelo de provedor, como Mistral AI ou Cohere, são exibidos sob o grupo de recursos em vez do recurso Serviços de IA do Azure.
Modifique o grupo por para medir. Agora você pode ver que, para este grupo de recursos específico, a fonte dos custos vem de diferentes séries de modelos.
As seções a seguir explicam as entradas em detalhes.
Azure OpenAI e modelos da Microsoft
O Azure OpenAI e a família de modelos da Microsoft (como Phi) são cobrados diretamente e aparecem como medidores de faturamento em cada recurso de serviços de IA do Azure. Esta faturação acontece diretamente através da Microsoft. Ao inspecionar sua fatura, você percebe medidores de faturamento contabilizando entradas e saídas para cada modelo consumido.
Modelos de fornecedores
Os modelos fornecidos por outro provedor, como Mistral AI, Cohere, Meta AI ou AI21 Labs, são cobrados usando o Azure Marketplace. Ao contrário dos medidores de faturamento da Microsoft, essas entradas são associadas ao grupo de recursos em que seus serviços de IA do Azure são implantados, em vez de ao próprio recurso dos Serviços de IA do Azure. Você vê entradas sob o SaaS de nomede serviço contabilizando entradas e saídas para cada modelo consumido.
Usando o Pré-pagamento do Azure
Você pode pagar pelas cobranças do Azure OpenAI e dos modelos da Microsoft com seu crédito de pré-pagamento do Azure. No entanto, não pode utilizar o crédito de Pré-pagamento do Azure para pagar encargos de outros modelos de fornecedor, uma vez que são faturados através do Azure Marketplace.
Código de resposta de erro HTTP e status de cobrança
Se o serviço executar o processamento, você será cobrado mesmo que o código de status não seja bem-sucedido (não 200). Por exemplo, um erro 400 devido a um filtro de conteúdo ou limite de entrada, ou um erro 408 devido a um tempo limite.
Se o serviço não executar o processamento, você não será cobrado. Por exemplo, um erro 401 devido à autenticação ou um erro 429 devido a exceder o limite de taxa.
Outros custos
Habilitar recursos como o envio de dados para os Logs do Monitor do Azure e alertas incorre em custos adicionais para esses serviços. Esses custos são visíveis nesses outros serviços e no nível da assinatura, mas não são visíveis quando o escopo é definido apenas para seu recurso de serviços de IA do Azure.
Monitorizar os custos
Os custos unitários de uso de recursos do Azure variam por intervalos de tempo, como segundos, minutos, horas e dias, ou por uso de unidade, como bytes e megabytes. Assim que o uso dos serviços de IA do Azure for iniciado, os custos poderão ser incorridos e você poderá vê-los na análise de custos.
Você pode obter informações de faturamento mais detalhadas usando a Análise de custos:
Para entender o detalhamento do que compõe esse custo, pode ser útil usar a ferramenta Análise de Custos no portal do Azure.
Vá para Azure AI Foundry Portal.
No canto superior direito da tela, selecione o nome do recurso dos Serviços de IA do Azure ou, se estiver trabalhando em um projeto de IA, o nome do projeto.
Selecione o nome do projeto. O portal do Azure é aberto em uma nova janela.
Em Gerenciamento de custos, selecione Análise de custos
Por padrão, a análise de custos tem como escopo o grupo de recursos selecionado.
Como estamos vendo o custo de todo o grupo de recursos, é útil ver o custo por recurso. Nesse caso, selecione Exibir>custo por recurso.
Agora você pode ver os recursos que geram cada um dos medidores de faturamento.
Os modelos do Azure OpenAI e os modelos da Microsoft, conforme explicado anteriormente, são exibidos como medidores em cada recurso de serviços de IA do Azure:
Alguns modelos de provedores são exibidos como medidores em Recursos globais. Observe que a palavra Globalnão está relacionada à SKU da implantação do modelo (por exemplo, Padrão global). Se você tiver vários recursos de serviços de IA do Azure, sua fatura conterá uma entrada para cada modelo para cada recurso de serviços de IA do Azure. Os medidores de recursos têm o formato [nome-modelo]-[GUID], onde [GUID] é um identificador exclusivo associado a um determinado recurso dos Serviços de IA do Azure. Você percebe medidores de faturamento contabilizando entradas e saídas para cada modelo que você consumiu.
É importante entender o escopo ao avaliar os custos associados aos Serviços de IA do Azure. Se seus recursos fizerem parte do mesmo grupo de recursos, você poderá definir o escopo da Análise de Custos nesse nível para entender o efeito sobre os custos. Se os seus recursos estiverem distribuídos por vários grupos de recursos, pode definir o âmbito até ao nível da subscrição.
Criar orçamentos
Você pode criar orçamentos para gerenciar custos e criar alertas que notificam as partes interessadas sobre anomalias de gastos e riscos de gastos excessivos. Os alertas são baseados nos gastos em comparação com os orçamentos e os limites de custos. Você cria orçamentos e alertas para assinaturas do Azure e grupos de recursos. Eles são úteis como parte de uma estratégia geral de monitoramento de custos.
Você pode criar orçamentos com filtros para recursos ou serviços específicos no Azure se quiser mais granularidade presente em seu monitoramento. Os filtros ajudam a garantir que você não crie acidentalmente novos recursos que custam mais dinheiro. Para obter mais informações sobre as opções de filtro disponíveis quando você cria um orçamento, consulte Opções de grupo e filtro.
Exportar dados de custo
Você também pode exportar seus dados de custo para uma conta de armazenamento, o que é útil quando você precisa que outras pessoas façam análises de dados extras para custos. Por exemplo, uma equipe financeira pode analisar os dados usando o Excel ou o Power BI. Você pode exportar seus custos em uma programação diária, semanal ou mensal e definir um intervalo de datas personalizado. Recomendamos a exportação de dados de custo como forma de recuperar conjuntos de dados de custo.
Próximos passos
- Saiba como otimizar o seu investimento na nuvem com a gestão de custos.
- Saiba mais sobre como gerenciar custos com análise de custos.
- Saiba como evitar custos inesperados.
- Faça o curso de aprendizagem guiada em Gestão de Custos.