Dela via


Promptcachelagring

Med cachelagring av frågor kan du minska den totala svarstiden och kostnaden för längre frågor som har identiskt innehåll i början av prompten. "Fråga" i den här kontexten refererar till de indata som du skickar till modellen som en del av din begäran om att chatten ska slutföras. I stället för att bearbeta samma indatatoken om och om igen kan tjänsten behålla en tillfällig cache med bearbetade indatatokenberäkningar för att förbättra den övergripande prestandan. Cachelagring av frågor påverkar inte utdatainnehållet som returneras i modellsvaret utöver en minskning av svarstid och kostnad. För modeller som stöds debiteras cachelagrade token med rabatt på prissättning för indatatoken för standarddistributionstyper och upp till 100 % rabatt på indatatoken för etablerade distributionstyper .

Cacheminnen rensas vanligtvis inom 5–10 minuters inaktivitet och tas alltid bort inom en timme efter cachens senaste användning. Prompt-cacheminnen delas inte mellan Azure-prenumerationer.

Modeller som stöds

För närvarande stöder endast följande modeller cachelagring av frågor med Azure OpenAI:

  • o1-2024-12-17
  • o1-preview-2024-09-12
  • o1-mini-2024-09-12
  • gpt-4o-2024-11-20
  • gpt-4o-2024-08-06
  • gpt-4o-mini-2024-07-18
  • gpt-4o-realtime-preview (version 2024-12-17)
  • gpt-4o-mini-realtime-preview (version 2024-12-17)

Kommentar

Snabbcachelagring är nu också tillgängligt som en del av modellens finjustering för gpt-4o och gpt-4o-mini. Mer information finns i avsnittet om finjustering på prissidan .

API-stöd

Officiellt stöd för cachelagring av frågor lades först till i API-versionen 2024-10-01-preview. För närvarande stöder endast o1-modellfamiljen API-svarsparametern cached_tokens .

Komma igång

För att en begäran ska kunna dra nytta av snabb cachelagring måste begäran vara både:

  • Minst 1 024 tokens i längd.
  • De första 1 024 token i prompten måste vara identiska.

När en matchning hittas mellan tokenberäkningarna i en prompt och det aktuella innehållet i promptcachen kallas den för en cacheträff. Cacheträffar visas som cached_tokens under prompt_tokens_details i chattens slutförandesvar.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

När de första 1 024 tokencacheträffarna inträffar för varje 128 ytterligare identiska token.

En skillnad med ett tecken i de första 1 024 tokens resulterar i en cachemiss som kännetecknas av värdet cached_tokens 0. Cachelagring av frågor är aktiverat som standard utan ytterligare konfiguration som behövs för modeller som stöds.

Vad cachelagras?

Funktionsstöd för o1-seriens modeller varierar beroende på modell. Mer information finns i vår guide för dedikerade resonemangsmodeller.

Cachelagring av frågor stöds för:

Cachelagring stöds Beskrivning Modeller som stöds
Meddelanden Den fullständiga meddelandematrisen: system, utvecklare, användare och assistentinnehåll gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)
o1 (version 2024-12-17)
Bilder Bilder som ingår i användarmeddelanden, både som länkar eller som base64-kodade data. Detaljparametern måste anges på samma sätt mellan begäranden. gpt-4o
gpt-4o-mini
o1 (version 2024-12-17)
Verktygsanvändning Både meddelandematrisen och verktygsdefinitionerna. gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)
o1 (version 2024-12-17)
Strukturerade utdata Strukturerat utdataschema läggs till som ett prefix i systemmeddelandet. gpt-4o
gpt-4o-mini
o1 (version 2024-12-17)

För att förbättra sannolikheten för att cacheträffar ska du strukturera dina begäranden så att repetitivt innehåll inträffar i början av meddelandematrisen.

Kan jag inaktivera cachelagring av frågor?

Cachelagring av frågor är aktiverat som standard för alla modeller som stöds. Det finns inget avanmälningsstöd för cachelagring av frågor.