Prompt opslaan in cache

Artikel
02/25/2025

Met promptcaching kunt u de totale latentie van aanvragen en de kosten voor langere prompts met identieke inhoud aan het begin van de prompt verminderen. 'Prompt' in deze context verwijst naar de invoer die u naar het model verzendt als onderdeel van uw aanvraag voor voltooiing van chats. In plaats van dezelfde invoertokens telkens opnieuw te verwerken, kan de service een tijdelijke cache van verwerkte invoertokenberekeningen behouden om de algehele prestaties te verbeteren. Het in de cache opslaan van prompts heeft geen invloed op de uitvoerinhoud die in het modelantwoord wordt geretourneerd, behalve een vermindering van de latentie en kosten. Voor ondersteunde modellen worden tokens in de cache gefactureerd tegen korting op invoertokenprijzen voor standaardimplementatietypen en maximaal 100% korting op invoertokens voor ingerichte implementatietypen.

Caches worden doorgaans binnen 5-10 minuten na inactiviteit gewist en worden altijd verwijderd binnen een uur na het laatste gebruik van de cache. Promptcaches worden niet gedeeld tussen Azure-abonnementen.

Ondersteunde modellen

Momenteel bieden alleen de volgende modellen ondersteuning voor het in de cache opslaan van prompts met Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (versie 2024-12-17)
gpt-4o-mini-realtime-preview (versie 2024-12-17)

Notitie

Promptcaching is nu ook beschikbaar als onderdeel van het verfijnen van het model en gpt-4ogpt-4o-mini. Raadpleeg de sectie voor het afstemmen van de pagina met prijzen voor meer informatie.

API-ondersteuning

Officiële ondersteuning voor promptcaching is voor het eerst toegevoegd in API-versie 2024-10-01-preview. Op dit moment ondersteunt alleen de o1-modelfamilie de cached_tokens API-antwoordparameter.

Aan de slag

Voor een aanvraag om te kunnen profiteren van het in de cache opslaan van prompts, moet de aanvraag beide zijn:

Minimaal 1024 tokens lang.
De eerste 1024 tokens in de prompt moeten identiek zijn.

Wanneer er een overeenkomst wordt gevonden tussen de tokenberekeningen in een prompt en de huidige inhoud van de promptcache, wordt dit een cachetreffer genoemd. Cachetreffers worden weergegeven als cached_tokens onder prompt_tokens_details in het antwoord op voltooiingen van de chat.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Nadat de eerste 1024 tokens cachetreffers voor elke 128 extra identieke tokens hebben plaatsgevonden.

Een verschil tussen één teken in de eerste 1024 tokens resulteert in een cachemissing die wordt gekenmerkt door een cached_tokens waarde van 0. Promptcaching is standaard ingeschakeld zonder dat er extra configuratie nodig is voor ondersteunde modellen.

Wat is in de cache?

Ondersteuning voor o1-seriemodellen verschilt per model. Zie onze speciale handleiding voor redeneringsmodellen voor meer informatie.

Het in de cache opslaan van prompts wordt ondersteund voor:

Opslaan in cache ondersteund	Beschrijving	Ondersteunde modellen
Berichten	De volledige berichtenmatrix: inhoud van systeem, ontwikkelaar, gebruiker en assistent	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versie 2024-12-17) `gpt-4o-mini-realtime-preview` (versie 2024-12-17) `o1` (versie 2024-12-17)
Afbeeldingen	Afbeeldingen die zijn opgenomen in gebruikersberichten, zowel als koppelingen of als base64-gecodeerde gegevens. De detailparameter moet hetzelfde zijn ingesteld voor alle aanvragen.	`gpt-4o` `gpt-4o-mini` `o1` (versie 2024-12-17)
Gebruik van hulpprogramma's	Zowel de berichtenmatrix als de hulpprogrammadefinities.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versie 2024-12-17) `gpt-4o-mini-realtime-preview` (versie 2024-12-17) `o1` (versie 2024-12-17)
Gestructureerde uitvoer	Gestructureerd uitvoerschema wordt toegevoegd als voorvoegsel aan het systeembericht.	`gpt-4o` `gpt-4o-mini` `o1` (versie 2024-12-17)

Om de kans op cachetreffers te verbeteren, moet u uw aanvragen zodanig structureren dat terugkerende inhoud aan het begin van de berichtenmatrix plaatsvindt.

Kan ik promptcaching uitschakelen?

Promptcaching is standaard ingeschakeld voor alle ondersteunde modellen. Er is geen afmeldingsondersteuning voor promptcaching.

Delen via