Partager via


Obtenir des réponses mises en cache des requêtes de l’API Azure OpenAI

S’APPLIQUE À : Tous les niveaux de Gestion des API

Utilisez la stratégie azure-openai-semantic-cache-lookup pour effectuer une recherche dans le cache des réponses aux requêtes d’API Completion et d’API Completion Chat Azure OpenAI à partir d’un cache externe configuré, en fonction de la proximité vectorielle de l’invite aux requêtes précédentes et d’un seuil de score de similitude spécifié. La mise en cache de la réponse réduit les besoins en bande passante et en traitement imposés par l’API Azure OpenAI back-end et limite la latence perçue par les consommateurs de l’API.

Remarque

Remarque

Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Modèles Azure OpenAI Service pris en charge

La stratégie est utilisée avec les API ajoutées à Gestion des API à partir de Azure OpenAI Service des types suivants :

Type de l’API Modèles pris en charge
Saisie semi-automatique de la conversation gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
Incorporations text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

Pour plus d’informations, consultez Gérer les Modèles Azure OpenAI Service.

Instruction de la stratégie

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Attributs

Attribut Description Obligatoire Default
score-threshold Seuil de score de similitude utilisé pour déterminer s’il faut retourner une réponse mise en cache à une invite. La valeur doit être un nombre décimal entre 0.0 et 1.0. Plus d’informations Oui S/O
embeddings-backend-id ID de back-end pour un appel d’API d’incorporations OpenAI. Oui Non applicable
ignore-system-messages Booléenne. En cas de définition sur true, supprime les messages système d’une invite de complétion de conversation GPT avant d’évaluer une similitude de cache. Non false
max-message-count Si spécifié, nombre de messages de dialogue restants une fois la mise en cache ignorée. Non N/A

Éléments

Nom Description Obligatoire
vary-by Expression personnalisée déterminée au moment du runtime dont la valeur partitionne la mise en cache. Si plusieurs éléments vary-by sont ajoutés, les valeurs sont concaténées pour créer une combinaison unique. Non

Usage

Notes d’utilisation

  • Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.

Exemples

Exemple avec une stratégie azure-openai-semantic-cache-store correspondante

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :