Promptcachelagring

Artikel
02/25/2025

Med cachelagring av frågor kan du minska den totala svarstiden och kostnaden för längre frågor som har identiskt innehåll i början av prompten. "Fråga" i den här kontexten refererar till de indata som du skickar till modellen som en del av din begäran om att chatten ska slutföras. I stället för att bearbeta samma indatatoken om och om igen kan tjänsten behålla en tillfällig cache med bearbetade indatatokenberäkningar för att förbättra den övergripande prestandan. Cachelagring av frågor påverkar inte utdatainnehållet som returneras i modellsvaret utöver en minskning av svarstid och kostnad. För modeller som stöds debiteras cachelagrade token med rabatt på prissättning för indatatoken för standarddistributionstyper och upp till 100 % rabatt på indatatoken för etablerade distributionstyper .

Cacheminnen rensas vanligtvis inom 5–10 minuters inaktivitet och tas alltid bort inom en timme efter cachens senaste användning. Prompt-cacheminnen delas inte mellan Azure-prenumerationer.

Modeller som stöds

För närvarande stöder endast följande modeller cachelagring av frågor med Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)

Kommentar

Snabbcachelagring är nu också tillgängligt som en del av modellens finjustering för gpt-4o och gpt-4o-mini. Mer information finns i avsnittet om finjustering på prissidan .

API-stöd

Officiellt stöd för cachelagring av frågor lades först till i API-versionen 2024-10-01-preview. För närvarande stöder endast o1-modellfamiljen API-svarsparametern cached_tokens .

Komma igång

För att en begäran ska kunna dra nytta av snabb cachelagring måste begäran vara både:

Minst 1 024 tokens i längd.
De första 1 024 token i prompten måste vara identiska.

När en matchning hittas mellan tokenberäkningarna i en prompt och det aktuella innehållet i promptcachen kallas den för en cacheträff. Cacheträffar visas som cached_tokens under prompt_tokens_details i chattens slutförandesvar.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

När de första 1 024 tokencacheträffarna inträffar för varje 128 ytterligare identiska token.

En skillnad med ett tecken i de första 1 024 tokens resulterar i en cachemiss som kännetecknas av värdet cached_tokens 0. Cachelagring av frågor är aktiverat som standard utan ytterligare konfiguration som behövs för modeller som stöds.

Vad cachelagras?

Funktionsstöd för o1-seriens modeller varierar beroende på modell. Mer information finns i vår guide för dedikerade resonemangsmodeller.

Cachelagring av frågor stöds för:

Cachelagring stöds	Beskrivning	Modeller som stöds
Meddelanden	Den fullständiga meddelandematrisen: system, utvecklare, användare och assistentinnehåll	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (version 2024-12-17) `gpt-4o-mini-realtime-preview` (version 2024-12-17) `o1` (version 2024-12-17)
Bilder	Bilder som ingår i användarmeddelanden, både som länkar eller som base64-kodade data. Detaljparametern måste anges på samma sätt mellan begäranden.	`gpt-4o` `gpt-4o-mini` `o1` (version 2024-12-17)
Verktygsanvändning	Både meddelandematrisen och verktygsdefinitionerna.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (version 2024-12-17) `gpt-4o-mini-realtime-preview` (version 2024-12-17) `o1` (version 2024-12-17)
Strukturerade utdata	Strukturerat utdataschema läggs till som ett prefix i systemmeddelandet.	`gpt-4o` `gpt-4o-mini` `o1` (version 2024-12-17)

För att förbättra sannolikheten för att cacheträffar ska du strukturera dina begäranden så att repetitivt innehåll inträffar i början av meddelandematrisen.

Kan jag inaktivera cachelagring av frågor?

Cachelagring av frågor är aktiverat som standard för alla modeller som stöds. Det finns inget avanmälningsstöd för cachelagring av frågor.

Dela via