Emitir métricas para consumo de tokens de modelo de linguagem grande

Artigo
10/02/2024

APLICA-SE A: todas as camadas do Gerenciamento de API

A política llm-emit-token-metric envia métricas personalizadas ao Application Insights sobre o consumo de tokens de LLM (modelo de linguagem grande) por meio de APIs de LLM. As métricas de contagem de tokens incluem: total de tokens, tokens de prompt e tokens de conclusão.

Observação

Atualmente, essa política está em versão prévia.

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos com suporte

Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.

Limites para métricas personalizadas

O Azure Monitor impõe limites de uso para métricas personalizadas que podem afetar sua capacidade de emitir métricas de Gerenciamento de API. Por exemplo, o Azure Monitor atualmente define um limite de 10 chaves de dimensão por métrica e um limite de 50.000 séries temporais ativas totais por região em uma assinatura (dentro de um período de 12 horas).

Esses limites têm as seguintes implicações para configurar métricas personalizadas em uma política de Gerenciamento de API, como emit-metric ou azure-openai-emit-token-metric:

Você pode configurar no máximo 10 dimensões personalizadas por política .
O número de séries temporais ativas geradas pela política dentro de um período de 12 horas é o produto do número de valores exclusivos de cada dimensão configurada durante o período. Por exemplo, se três dimensões personalizadas foram configuradas na política e cada dimensão tinha 10 valores possíveis dentro do período, a política contribuiria com 1.000 (10 x 10 x 10) séries temporais ativas.
Se você configurar a política em várias instâncias de Gerenciamento de API que estão na mesma região em uma assinatura, todas as instâncias poderão contribuir para o limite de série temporal ativo regional.

Saiba mais sobre limitações de design e considerações para métricas personalizadas no Azure Monitor.

Pré-requisitos

Uma ou mais APIs do LLM precisam ser adicionadas à instância do Gerenciamento de API.
Sua instância do Gerenciamento de API deve ser integrada ao Application Insights. Para obter mais informações, consulte Como integrar o Gerenciamento de API do Azure ao Azure Application Insights.
Habilitar o log do Application Insights para suas API de LLM.
Habilitar métricas personalizadas com dimensões no Application Insights. Para obter mais informações, consulte Emitir métricas personalizadas.

Declaração de política

<llm-emit-token-metric
        namespace="metric namespace" >      
        <dimension name="dimension name" value="dimension value" />
        ...additional dimensions...
</llm-emit-token-metric>

Atributos

Atributo	Descrição	Obrigatório	Valor padrão
namespace	Uma cadeia de caracteres. Namespace da métrica. Expressões de política não são permitidas.	Não	Gerenciamento da API

Elementos

Elemento	Descrição	Obrigatório
dimensão	Adicione um ou mais desses elementos para cada dimensão incluída na métrica.	Yes

atributos de dimensão

Atributo	Descrição	Obrigatório	Valor padrão
name	Uma cadeia de caracteres ou expressão de política. Nome da dimensão.	Sim	N/D
value	Uma cadeia de caracteres ou expressão de política. Valor da dimensão. Só poderá ser omitido se `name` corresponder a uma das dimensões padrão. Em caso afirmativo, o valor é fornecido de acordo com o nome da dimensão.	Não	N/D

Nomes de dimensão padrão que podem ser usados sem valor

ID da API
ID da Operação
Produto ID
ID do Usuário
ID da assinatura
Localidade
ID de Gateway

Uso

Seções de política: de entrada
Escopos de política: global, espaço de trabalho, produto, API, operação
Gateways: clássico, v2, consumo, auto-hospedado, espaço de trabalho

Observações de uso

Essa política pode ser usada várias vezes por definição de política.
Você pode configurar no máximo 10 dimensões personalizadas para essa política.
Quando disponíveis, os valores na seção de uso da resposta fornecida pela API de LLM serão utilizados para determinar o uso de métricas.
Determinados pontos de extremidade de LLM são compatíveis com o streaming de respostas. Quando stream é definido como true na solicitação de API para habilitar o streaming, as métricas de token são estimadas.

Exemplo

O exemplo a seguir envia métricas de contagem de tokens de LLM ao Application Insights juntamente com a ID da API como uma dimensão personalizada.

<policies>
  <inbound>
      <llm-emit-token-metric
            namespace="MyLLM">   
            <dimension name="API ID" />
        </llm-emit-token-metric> 
  </inbound>
  <outbound>
  </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transformar e proteger sua API
Referência de Política para uma lista completa das instruções de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Repositório de snippets de política
Kit de ferramentas de políticas do Gerenciamento de API do Azure
Criar políticas usando o Microsoft Copilot no Azure

Compartilhar via

Emitir métricas para consumo de tokens de modelo de linguagem grande

Modelos com suporte

Limites para métricas personalizadas

Pré-requisitos

Declaração de política

Atributos

Elementos

atributos de dimensão

Nomes de dimensão padrão que podem ser usados sem valor

Uso

Observações de uso

Exemplo

Comentários

Recursos adicionais

Compartilhar via

Emitir métricas para consumo de tokens de modelo de linguagem grande

Modelos com suporte

Limites para métricas personalizadas

Pré-requisitos

Declaração de política

Atributos

Elementos

atributos de dimensão

Nomes de dimensão padrão que podem ser usados sem valor

Uso

Observações de uso

Exemplo

Políticas relacionadas

Conteúdo relacionado

Comentários

Recursos adicionais