Mise en cache de requête

Article
02/27/2025

La mise en cache des invites vous permet de réduire la latence globale des requêtes et des coûts pour les invites plus longues qui ont du contenu identique au début de l’invite. « Invite » dans ce contexte fait référence à l’entrée que vous envoyez au modèle dans le cadre de votre demande de saisie semi-automatique de conversation. Au lieu de retraiter encore et encore les mêmes jetons d’entrée, le service peut conserver un cache temporaire de calculs de jetons d’entrée traités pour améliorer les performances globales. La mise en cache des invites n’a aucun impact sur le contenu de sortie retourné dans la réponse du modèle au-delà d’une réduction de la latence et du coût. Pour les modèles pris en charge, les jetons mis en cache sont facturés avec une remise sur la tarification des jetons d’entrée pour les types de déploiement standard et avec jusqu’à 100 % de remise sur les jetons d’entrée pour les types de déploiement approvisionnés.

Les caches sont généralement effacés après 5 à 10 minutes d’inactivité et sont toujours supprimés dans l’heure suivant la dernière utilisation du cache. Les caches de prompts ne sont pas partagés entre les abonnements Azure.

Modèles pris en charge

Actuellement, seuls les modèles suivants prennent en charge la mise en cache d’invite avec Azure OpenAI :

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)

Remarque

La mise en cache des prompts est désormais disponible dans le cadre du réglage précis du modèle pour gpt-4o et gpt-4o-mini. Pour plus d’informations, reportez-vous à la section des réglages précis de la page de tarification.

Prise en charge des API

La prise en charge officielle de la mise en cache des invites a été ajoutée pour la première fois dans la version de l’API 2024-10-01-preview. À ce stade, seule la famille de modèles o1 prend en charge le paramètre de réponse de l’API cached_tokens.

Mise en route

Pour qu’une demande tire parti de la mise en cache d’invite, la demande doit être à la fois :

Un minimum de 1 024 jetons de longueur.
Les 1 024 premiers jetons de l’invite doivent être identiques.

Lorsqu’une correspondance est trouvée entre les calculs de jetons dans un prompt et le contenu actuel du cache de prompts, on appelle cela une correspondance dans le cache. Les accès au cache s’affichent sous cached_tokens sous prompt_tokens_details dans la réponse de saisie semi-automatique de conversation.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Une fois que les 1 024 premiers jetons de cache se produisent pour chaque 128 jetons identiques supplémentaires.

Une différence de caractère unique dans les 1 024 premiers jetons entraîne une absence de cache qui est caractérisée par une valeur de cached_tokens de 0. La mise en cache des invites est activée par défaut sans configuration supplémentaire nécessaire pour les modèles pris en charge.

Qu’est-ce qui est mis en cache ?

La prise en charge de la fonctionnalité des modèles de la série o1 varie selon les modèles. Pour découvrir plus d’informations, consultez notre guide des modèles de raisonnement dédié.

La mise en cache des prompts est prise en charge pour :

Mise en cache prise en charge	Description	Modèles pris en charge
Messages	Tableau de messages complet : contenu système, développeur, utilisateur et assistant	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (version 2024-12-17) `gpt-4o-mini-realtime-preview` (version 2024-12-17) `o1` (version 2024-12-17)
Images	Images incluses dans les messages utilisateur, à la fois sous forme de liens ou de données encodées en base64. Le paramètre de détail doit être défini de la même façon sur les requêtes.	`gpt-4o` `gpt-4o-mini` `o1` (version 2024-12-17)
Outil utilise	À la fois le tableau des messages et les définitions d’outils.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (version 2024-12-17) `gpt-4o-mini-realtime-preview` (version 2024-12-17) `o1` (version 2024-12-17)
Sorties structurées	Le schéma de sortie structurée est ajouté en tant que préfixe au message système.	`gpt-4o` `gpt-4o-mini` `o1` (version 2024-12-17)

Pour améliorer la probabilité que des accès au cache se produisent, vous devez structurer vos demandes afin que le contenu répétitif se produise au début du tableau de messages.

Puis-je désactiver la mise en cache des invites ?

La mise en cache des prompts est activée par défaut pour tous les modèles pris en charge. La désactivation de la mise en cache des prompts n’est pas prise en charge.

Partage via