Obtenir les réponses mises en cache des demandes d’API de modèle de langage volumineux
S’APPLIQUE À : Tous les niveaux de Gestion des API
Utilisez la stratégie llm-semantic-cache-lookup
pour effectuer une recherche dans le cache des réponses aux requêtes d’API de grande valeur de modèle de langage (LLM) à partir d’un cache externe configuré, en fonction de la proximité vectorielle de l’invite aux requêtes précédentes et d’un seuil de score de similarité spécifié. La mise en cache de la réponse réduit les besoins en bande passante et en calcul imposés par l’API LLM principal et limite la latence perçue par les consommateurs de l’API.
Remarque
- Cette stratégie doit avoir une stratégie Mettre en cache des réponses à des requêtes d’API de grande valeur de modèle de langage correspondante.
- Si vous souhaitez obtenir les prérequis et les étapes permettant d’activer la mise en cache sémantique, consultez Activer la mise en cache sémantique pour des API Azure OpenAI dans Gestion des API Azure.
- Cette stratégie est actuellement en préversion.
Remarque
Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.
Modèles pris en charge
Utilisez la stratégie avec les API LLM ajoutées à Gestion des API Azure qui sont disponibles via l’API d’inférence de modèle Azure AI.
Instruction de la stratégie
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Attributs
Attribut | Description | Obligatoire | Default |
---|---|---|---|
score-threshold | Seuil de score de similitude utilisé pour déterminer s’il faut retourner une réponse mise en cache à une invite. La valeur doit être un nombre décimal entre 0.0 et 1.0. Plus d’informations | Oui | S/O |
embeddings-backend-id | ID de back-end pour un appel d’API d’incorporations OpenAI. | Oui | Non applicable |
ignore-system-messages | Booléenne. En cas de définition sur true , supprime les messages système d’une invite de complétion de conversation GPT avant d’évaluer une similitude de cache. |
Non | false |
max-message-count | Si spécifié, nombre de messages de dialogue restants une fois la mise en cache ignorée. | Non | N/A |
Éléments
Nom | Description | Obligatoire |
---|---|---|
vary-by | Expression personnalisée déterminée au moment du runtime dont la valeur partitionne la mise en cache. Si plusieurs éléments vary-by sont ajoutés, les valeurs sont concaténées pour créer une combinaison unique. |
Non |
Usage
- Sections de la stratégie : inbound
- Étendues de la stratégie : global, product, API, operation
- Passerelles : classiques, v2, Consommation
Notes d’utilisation
- Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.
Exemples
Exemple avec une stratégie llm-semantic-cache-store correspondante
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Stratégies connexes
Contenu connexe
Pour plus d’informations sur l’utilisation des stratégies, consultez :
- Tutoriel : Transformer et protéger votre API
- Référence de stratégie pour obtenir la liste complète des instructions et des paramètres de stratégie
- Expressions de stratégie
- Définir ou modifier des stratégies
- Réutilisation de configurations de stratégie
- Référentiel d’extrait de stratégie
- Kit de ressources des stratégies Gestion des API Azure
- Créer des stratégies à l’aide de Microsoft Copilot dans Azure