Mise en cache de requête
La mise en cache des invites vous permet de réduire la latence globale des requêtes et des coûts pour les invites plus longues qui ont du contenu identique au début de l’invite. « Invite » dans ce contexte fait référence à l’entrée que vous envoyez au modèle dans le cadre de votre demande de saisie semi-automatique de conversation. Au lieu de retraiter encore et encore les mêmes jetons d’entrée, le service peut conserver un cache temporaire de calculs de jetons d’entrée traités pour améliorer les performances globales. La mise en cache des invites n’a aucun impact sur le contenu de sortie retourné dans la réponse du modèle au-delà d’une réduction de la latence et du coût. Pour les modèles pris en charge, les jetons mis en cache sont facturés avec une remise sur la tarification des jetons d’entrée pour les types de déploiement standard et avec jusqu’à 100 % de remise sur les jetons d’entrée pour les types de déploiement approvisionnés.
Les caches sont généralement effacés après 5 à 10 minutes d’inactivité et sont toujours supprimés dans l’heure suivant la dernière utilisation du cache. Les caches de prompts ne sont pas partagés entre les abonnements Azure.
Modèles pris en charge
Actuellement, seuls les modèles suivants prennent en charge la mise en cache d’invite avec Azure OpenAI :
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
-
gpt-4o-realtime-preview
(version 2024-12-17) -
gpt-4o-mini-realtime-preview
(version 2024-12-17)
Remarque
La mise en cache des prompts est désormais disponible dans le cadre du réglage précis du modèle pour gpt-4o
et gpt-4o-mini
. Pour plus d’informations, reportez-vous à la section des réglages précis de la page de tarification.
Prise en charge des API
La prise en charge officielle de la mise en cache des invites a été ajoutée pour la première fois dans la version de l’API 2024-10-01-preview
. À ce stade, seule la famille de modèles o1 prend en charge le paramètre de réponse de l’API cached_tokens
.
Mise en route
Pour qu’une demande tire parti de la mise en cache d’invite, la demande doit être à la fois :
- Un minimum de 1 024 jetons de longueur.
- Les 1 024 premiers jetons de l’invite doivent être identiques.
Lorsqu’une correspondance est trouvée entre les calculs de jetons dans un prompt et le contenu actuel du cache de prompts, on appelle cela une correspondance dans le cache. Les accès au cache s’affichent sous cached_tokens
sous prompt_tokens_details
dans la réponse de saisie semi-automatique de conversation.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
Une fois que les 1 024 premiers jetons de cache se produisent pour chaque 128 jetons identiques supplémentaires.
Une différence de caractère unique dans les 1 024 premiers jetons entraîne une absence de cache qui est caractérisée par une valeur de cached_tokens
de 0. La mise en cache des invites est activée par défaut sans configuration supplémentaire nécessaire pour les modèles pris en charge.
Qu’est-ce qui est mis en cache ?
La prise en charge de la fonctionnalité des modèles de la série o1 varie selon les modèles. Pour découvrir plus d’informations, consultez notre guide des modèles de raisonnement dédié.
La mise en cache des prompts est prise en charge pour :
Mise en cache prise en charge | Description | Modèles pris en charge |
---|---|---|
Messages | Tableau de messages complet : contenu système, développeur, utilisateur et assistant | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (version 2024-12-17)gpt-4o-mini-realtime-preview (version 2024-12-17)o1 (version 2024-12-17) |
Images | Images incluses dans les messages utilisateur, à la fois sous forme de liens ou de données encodées en base64. Le paramètre de détail doit être défini de la même façon sur les requêtes. | gpt-4o gpt-4o-mini o1 (version 2024-12-17) |
Outil utilise | À la fois le tableau des messages et les définitions d’outils. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (version 2024-12-17)gpt-4o-mini-realtime-preview (version 2024-12-17)o1 (version 2024-12-17) |
Sorties structurées | Le schéma de sortie structurée est ajouté en tant que préfixe au message système. | gpt-4o gpt-4o-mini o1 (version 2024-12-17) |
Pour améliorer la probabilité que des accès au cache se produisent, vous devez structurer vos demandes afin que le contenu répétitif se produise au début du tableau de messages.
Puis-je désactiver la mise en cache des invites ?
La mise en cache des prompts est activée par défaut pour tous les modèles pris en charge. La désactivation de la mise en cache des prompts n’est pas prise en charge.