Almacenamiento en caché de mensajes

Artículo
01/17/2025

El almacenamiento en caché de mensajes permite reducir la latencia general de las solicitudes y el costo de los mensajes más largos que tienen contenido idéntico al principio del mensaje. "Preguntar" en este contexto hace referencia a la entrada que envía al modelo como parte de la solicitud de finalización del chat. En lugar de volver a procesar los mismos tokens de entrada una y otra vez, el modelo puede conservar una caché temporal de los cálculos del token de entrada procesados para mejorar el rendimiento general. El almacenamiento en caché de mensajes no afecta al contenido de salida devuelto en la respuesta del modelo más allá de una reducción de la latencia y el costo. En el caso de los modelos compatibles, los tokens almacenados en caché se facturan con un descuento en los precios del token de entrada para los tipos de implementación estándar y un descuento de hasta un 100 % en los tokens de entrada para los tipos de implementación aprovisionados.

Las memorias caché normalmente se borran en un plazo de 5 a 10 minutos de inactividad y siempre se quitan dentro de la hora del último uso de la memoria caché. Las cachés de las solicitudes no se comparten entre suscripciones de Azure.

Modelos admitidos

Actualmente, solo los siguientes modelos admiten el almacenamiento en caché de mensajes con Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (versión 2024-12-17)

Nota:

El almacenamiento en caché de las solicitudes ahora también está disponible como parte del ajuste preciso del modelo para gpt-4o y gpt-4o-mini. Consulte la sección de ajuste preciso en la página de precios para obtener más información.

Compatibilidad con API

El soporte oficial con el almacenamiento en caché de mensajes se agregó por primera vez en la versión de API2024-10-01-preview. En este momento, solo la familia de modelos de o1 admite el parámetro de respuesta de la API cached_tokens.

Introducción

Para que una solicitud aproveche el almacenamiento en caché de mensajes, la solicitud debe ser ambas:

Un mínimo de 1024 tokens de longitud.
Los primeros 1024 tokens del símbolo del sistema deben ser idénticos.

Cuando se encuentra una coincidencia entre los cálculos del token en una solicitud y el contenido actual de la memoria caché de la solicitud, se conoce como acierto de caché. Los aciertos de caché se mostrarán como cached_tokens bajoprompt_tokens_details en la respuesta de finalizaciones de chat.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Después de que se produzcan los primeros 1024 tokens de aciertos de caché para cada 128 tokens idénticos adicionales.

Una diferencia de caracteres único en los primeros 1024 tokens dará como resultado una falta de caché que se caracteriza por uncached_tokens valor de 0. El almacenamiento en caché de mensajes está habilitado de forma predeterminada sin necesidad de configuración adicional para los modelos admitidos.

¿Qué se almacena en caché?

Los modelos de la serie o1 son solo texto y no admiten mensajes del sistema, imágenes, llamadas a herramientas o funciones o salidas estructuradas. Esto limita la eficacia del almacenamiento en caché de mensajes para estos modelos a las partes del usuario o asistente de la matriz de mensajes que es menos probable que tengan un prefijo de token 1024 idéntico.

Se admite el almacenamiento en caché de solicitudes para:

Almacenamiento en caché admitido	Descripción	Modelos admitidos
Mensajes	Matriz de mensajes completa: contenido del sistema, usuario y asistente	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versión 2024-12-17)
Imágenes	Imágenes incluidas en los mensajes de usuario, tanto como vínculos como datos codificados en base64. El parámetro de detalle debe establecerse igual en todas las solicitudes.	`gpt-4o` `gpt-4o-mini`
Uso de herramientas	Tanto la matriz de mensajes como las definiciones de la herramienta.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versión 2024-12-17)
Salidas estructuradas	El esquema de salida estructurado se anexa como prefijo al mensaje del sistema.	`gpt-4o` `gpt-4o-mini`

Para mejorar la probabilidad de que se produzcan aciertos de caché, debe estructurar las solicitudes de forma que el contenido repetitivo se produzca al principio de la matriz de mensajes.

¿Puedo deshabilitar el almacenamiento en caché de mensajes?

El almacenamiento en caché de solicitudes está habilitado de forma predeterminada para todos los modelos admitidos. No hay compatibilidad con la exclusión para el almacenamiento en caché de solicitudes.

Compartir a través de