Promptcachelagring
Med cachelagring av frågor kan du minska den totala svarstiden och kostnaden för längre frågor som har identiskt innehåll i början av prompten. "Fråga" i den här kontexten refererar till de indata som du skickar till modellen som en del av din begäran om att chatten ska slutföras. I stället för att bearbeta samma indatatoken om och om igen kan tjänsten behålla en tillfällig cache med bearbetade indatatokenberäkningar för att förbättra den övergripande prestandan. Cachelagring av frågor påverkar inte utdatainnehållet som returneras i modellsvaret utöver en minskning av svarstid och kostnad. För modeller som stöds debiteras cachelagrade token med rabatt på prissättning för indatatoken för standarddistributionstyper och upp till 100 % rabatt på indatatoken för etablerade distributionstyper .
Cacheminnen rensas vanligtvis inom 5–10 minuters inaktivitet och tas alltid bort inom en timme efter cachens senaste användning. Prompt-cacheminnen delas inte mellan Azure-prenumerationer.
Modeller som stöds
För närvarande stöder endast följande modeller cachelagring av frågor med Azure OpenAI:
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
-
gpt-4o-realtime-preview
(version 2024-12-17) -
gpt-4o-mini-realtime-preview
(version 2024-12-17)
Kommentar
Snabbcachelagring är nu också tillgängligt som en del av modellens finjustering för gpt-4o
och gpt-4o-mini
. Mer information finns i avsnittet om finjustering på prissidan .
API-stöd
Officiellt stöd för cachelagring av frågor lades först till i API-versionen 2024-10-01-preview
. För närvarande stöder endast o1-modellfamiljen API-svarsparametern cached_tokens
.
Komma igång
För att en begäran ska kunna dra nytta av snabb cachelagring måste begäran vara både:
- Minst 1 024 tokens i längd.
- De första 1 024 token i prompten måste vara identiska.
När en matchning hittas mellan tokenberäkningarna i en prompt och det aktuella innehållet i promptcachen kallas den för en cacheträff. Cacheträffar visas som cached_tokens
under prompt_tokens_details
i chattens slutförandesvar.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
När de första 1 024 tokencacheträffarna inträffar för varje 128 ytterligare identiska token.
En skillnad med ett tecken i de första 1 024 tokens resulterar i en cachemiss som kännetecknas av värdet cached_tokens
0. Cachelagring av frågor är aktiverat som standard utan ytterligare konfiguration som behövs för modeller som stöds.
Vad cachelagras?
Funktionsstöd för o1-seriens modeller varierar beroende på modell. Mer information finns i vår guide för dedikerade resonemangsmodeller.
Cachelagring av frågor stöds för:
Cachelagring stöds | Beskrivning | Modeller som stöds |
---|---|---|
Meddelanden | Den fullständiga meddelandematrisen: system, utvecklare, användare och assistentinnehåll | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (version 2024-12-17)gpt-4o-mini-realtime-preview (version 2024-12-17)o1 (version 2024-12-17) |
Bilder | Bilder som ingår i användarmeddelanden, både som länkar eller som base64-kodade data. Detaljparametern måste anges på samma sätt mellan begäranden. | gpt-4o gpt-4o-mini o1 (version 2024-12-17) |
Verktygsanvändning | Både meddelandematrisen och verktygsdefinitionerna. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (version 2024-12-17)gpt-4o-mini-realtime-preview (version 2024-12-17)o1 (version 2024-12-17) |
Strukturerade utdata | Strukturerat utdataschema läggs till som ett prefix i systemmeddelandet. | gpt-4o gpt-4o-mini o1 (version 2024-12-17) |
För att förbättra sannolikheten för att cacheträffar ska du strukturera dina begäranden så att repetitivt innehåll inträffar i början av meddelandematrisen.
Kan jag inaktivera cachelagring av frågor?
Cachelagring av frågor är aktiverat som standard för alla modeller som stöds. Det finns inget avanmälningsstöd för cachelagring av frågor.