Prompt opslaan in cache
Met promptcaching kunt u de totale latentie van aanvragen en de kosten voor langere prompts met identieke inhoud aan het begin van de prompt verminderen. 'Prompt' in deze context verwijst naar de invoer die u naar het model verzendt als onderdeel van uw aanvraag voor voltooiing van chats. In plaats van dezelfde invoertokens telkens opnieuw te verwerken, kan de service een tijdelijke cache van verwerkte invoertokenberekeningen behouden om de algehele prestaties te verbeteren. Het in de cache opslaan van prompts heeft geen invloed op de uitvoerinhoud die in het modelantwoord wordt geretourneerd, behalve een vermindering van de latentie en kosten. Voor ondersteunde modellen worden tokens in de cache gefactureerd tegen korting op invoertokenprijzen voor standaardimplementatietypen en maximaal 100% korting op invoertokens voor ingerichte implementatietypen.
Caches worden doorgaans binnen 5-10 minuten na inactiviteit gewist en worden altijd verwijderd binnen een uur na het laatste gebruik van de cache. Promptcaches worden niet gedeeld tussen Azure-abonnementen.
Ondersteunde modellen
Momenteel bieden alleen de volgende modellen ondersteuning voor het in de cache opslaan van prompts met Azure OpenAI:
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
-
gpt-4o-realtime-preview
(versie 2024-12-17) -
gpt-4o-mini-realtime-preview
(versie 2024-12-17)
Notitie
Promptcaching is nu ook beschikbaar als onderdeel van het verfijnen van het model en gpt-4o
gpt-4o-mini
. Raadpleeg de sectie voor het afstemmen van de pagina met prijzen voor meer informatie.
API-ondersteuning
Officiële ondersteuning voor promptcaching is voor het eerst toegevoegd in API-versie 2024-10-01-preview
. Op dit moment ondersteunt alleen de o1-modelfamilie de cached_tokens
API-antwoordparameter.
Aan de slag
Voor een aanvraag om te kunnen profiteren van het in de cache opslaan van prompts, moet de aanvraag beide zijn:
- Minimaal 1024 tokens lang.
- De eerste 1024 tokens in de prompt moeten identiek zijn.
Wanneer er een overeenkomst wordt gevonden tussen de tokenberekeningen in een prompt en de huidige inhoud van de promptcache, wordt dit een cachetreffer genoemd. Cachetreffers worden weergegeven als cached_tokens
onder prompt_tokens_details
in het antwoord op voltooiingen van de chat.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
Nadat de eerste 1024 tokens cachetreffers voor elke 128 extra identieke tokens hebben plaatsgevonden.
Een verschil tussen één teken in de eerste 1024 tokens resulteert in een cachemissing die wordt gekenmerkt door een cached_tokens
waarde van 0. Promptcaching is standaard ingeschakeld zonder dat er extra configuratie nodig is voor ondersteunde modellen.
Wat is in de cache?
Ondersteuning voor o1-seriemodellen verschilt per model. Zie onze speciale handleiding voor redeneringsmodellen voor meer informatie.
Het in de cache opslaan van prompts wordt ondersteund voor:
Opslaan in cache ondersteund | Beschrijving | Ondersteunde modellen |
---|---|---|
Berichten | De volledige berichtenmatrix: inhoud van systeem, ontwikkelaar, gebruiker en assistent | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (versie 2024-12-17)gpt-4o-mini-realtime-preview (versie 2024-12-17)o1 (versie 2024-12-17) |
Afbeeldingen | Afbeeldingen die zijn opgenomen in gebruikersberichten, zowel als koppelingen of als base64-gecodeerde gegevens. De detailparameter moet hetzelfde zijn ingesteld voor alle aanvragen. | gpt-4o gpt-4o-mini o1 (versie 2024-12-17) |
Gebruik van hulpprogramma's | Zowel de berichtenmatrix als de hulpprogrammadefinities. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (versie 2024-12-17)gpt-4o-mini-realtime-preview (versie 2024-12-17)o1 (versie 2024-12-17) |
Gestructureerde uitvoer | Gestructureerd uitvoerschema wordt toegevoegd als voorvoegsel aan het systeembericht. | gpt-4o gpt-4o-mini o1 (versie 2024-12-17) |
Om de kans op cachetreffers te verbeteren, moet u uw aanvragen zodanig structureren dat terugkerende inhoud aan het begin van de berichtenmatrix plaatsvindt.
Kan ik promptcaching uitschakelen?
Promptcaching is standaard ingeschakeld voor alle ondersteunde modellen. Er is geen afmeldingsondersteuning voor promptcaching.