Émettre des mesures pour la consommation de jetons de grands modèles de langage
S’APPLIQUE À : Tous les niveaux de Gestion des API
La stratégie llm-emit-token-metric
envoie des métriques personnalisées à Application Insights sur la consommation de jetons de grands modèles de langage (LLM) via des API LLM. Les mesures du nombre de jetons incluent : nombre total de jetons, jetons d’invite et jetons de complétion.
Remarque
Cette stratégie est actuellement en préversion.
Remarque
Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.
Modèles pris en charge
Utilisez la stratégie avec les API LLM ajoutées à Gestion des API Azure qui sont disponibles via l’API d’inférence de modèle Azure AI.
Limites pour les métriques personnalisées
Azure Monitor impose des limites d’utilisation pour les métriques personnalisées qui peuvent affecter votre capacité à émettre des métriques à partir de Gestion des API. Par exemple, Azure Monitor définit actuellement une limite de 10 clés de dimension par métrique et une limite de 50 000 séries chronologiques actives totales par région dans un abonnement (dans une période de 12 heures).
Ces limites ont les implications suivantes pour la configuration des métriques personnalisées dans une stratégie de gestion des API telle que emit-metric
ou azure-openai-emit-token-metric
:
Vous pouvez configurer un maximum de 10 dimensions personnalisées par stratégie .
Le nombre de séries chronologiques actives générées par la stratégie dans une période de 12 heures est le produit du nombre de valeurs uniques de chaque dimension configurée au cours de la période. Par exemple, si trois dimensions personnalisées ont été configurées dans la stratégie et que chaque dimension a 10 valeurs possibles au cours de la période, la stratégie contribuera à 1 000 (10 x 10 x 10) séries chronologiques actives.
Si vous configurez la stratégie dans plusieurs instances Gestion des API qui se trouvent dans la même région d’un abonnement, toutes les instances peuvent contribuer à la limite des séries chronologiques actives régionales.
Découvrez plus en détail les limitations et considérations relatives à la conception de métriques personnalisées dans Azure Monitor.
Prérequis
- Une ou plusieurs API LLM doivent être ajoutées à votre instance Gestion des API.
- Votre instance Gestion des API doit être intégrée à Application Insights. Pour découvrir plus d’informations, voir Guide pratique pour intégrer la Gestion des API Azure avec Azure Application Insights.
- Activez la journalisation Application Insights pour vos API LLM.
- Activez des métriques personnalisées avec des dimensions dans Application Insights. Pour obtenir plus d’informations, consultez Émettre des métriques personnalisées.
Instruction de la stratégie
<llm-emit-token-metric
namespace="metric namespace" >
<dimension name="dimension name" value="dimension value" />
...additional dimensions...
</llm-emit-token-metric>
Attributs
Attribut | Description | Obligatoire | Valeur par défaut |
---|---|---|---|
namespace | Chaîne. Espace de noms de métrique. Les expressions de stratégie ne sont pas autorisées. | Non | Gestion des API |
Éléments
Élément | Description | Obligatoire |
---|---|---|
dimension | Ajoutez un ou plusieurs de ces éléments pour chaque dimension incluse dans la métrique. | Oui |
Attributs de dimensions
Attribut | Description | Obligatoire | Valeur par défaut |
---|---|---|---|
name | Chaîne ou expression de stratégie. Nom de la dimension | Oui | N/A |
value | Chaîne ou expression de stratégie. Valeur de la dimension. Ne peut être omise que si name correspond à l’une des dimensions par défaut. Si c’est le cas, la valeur est fournie en fonction du nom de la dimension. |
Non | N/A |
Noms de dimension par défaut qui peuvent être utilisés sans valeur
- ID d’API
- ID de l'opération
- Product ID
- ID d'utilisateur
- Identifiant d’abonnement
- Emplacement
- ID de passerelle
Usage
- Sections de la stratégie : inbound
- Étendues de la stratégie : global, espace de travail, produit, API, opération
- Passerelles : classiques, v2, consommation, auto-hébergées, espace de travail
Notes d’utilisation
- Cette stratégie peut être utilisée plusieurs fois par définition de stratégie.
- Vous pouvez configurer au maximum 10 dimensions personnalisées pour cette stratégie.
- Lorsqu’elles sont disponibles, les valeurs indiquées dans la section d’utilisation de la réponse de l’API LLM sont utilisées pour déterminer les mesures de jeton.
- Certains points de terminaison LLM prennent en charge la diffusion en continu des réponses. Quand
stream
est défini surtrue
dans la requête d’API pour activer le streaming, les métriques de jeton sont estimées.
Exemple
L’exemple suivant envoie des métriques sur le nombre de jetons LLM à Application Insights, ainsi que l’ID d’API comme dimension personnalisée.
<policies>
<inbound>
<llm-emit-token-metric
namespace="MyLLM">
<dimension name="API ID" />
</llm-emit-token-metric>
</inbound>
<outbound>
</outbound>
</policies>
Stratégies connexes
- Logging
- stratégie emit-metric
- Stratégie azure-openai-emit-token-metric
- Stratégie llm-token-limit
Contenu connexe
Pour plus d’informations sur l’utilisation des stratégies, consultez :
- Tutoriel : Transformer et protéger votre API
- Référence de stratégie pour obtenir la liste complète des instructions et des paramètres de stratégie
- Expressions de stratégie
- Définir ou modifier des stratégies
- Réutilisation de configurations de stratégie
- Référentiel d’extrait de stratégie
- Créer des stratégies à l’aide de Microsoft Copilot dans Azure