Ukládání do mezipaměti výzvy

Článek
01/17/2025

Ukládání do mezipaměti umožňuje snížit celkovou latenci požadavků a náklady na delší výzvy, které mají na začátku výzvy stejný obsah. Výzva v tomto kontextu odkazuje na vstup, který odešlete do modelu v rámci žádosti o dokončení chatu. Místo opětovného zpracování stejných vstupních tokenů je služba schopná zachovat dočasnou mezipaměť výpočtů zpracovaných vstupních tokenů, aby se zlepšil celkový výkon. Ukládání výzev do mezipaměti nemá žádný vliv na výstupní obsah vrácený v odpovědi modelu nad rámec snížení latence a nákladů. U podporovaných modelů se tokeny v mezipaměti účtují se slevou na ceny vstupních tokenů pro typy standardního nasazení a až 100% sleva za vstupní tokeny pro typy zřízeného nasazení.

Mezipaměti se obvykle vymažou během 5 až 10 minut nečinnosti a vždy se odeberou během jedné hodiny od posledního použití mezipaměti. Mezi předplatnými Azure se nesdílí mezipaměti výzev.

Podporované modely

V současné době podporují ukládání do mezipaměti pomocí Azure OpenAI pouze následující modely:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (verze 2024-12-17)'

Poznámka:

Ukládání do mezipaměti výzvy je nyní k dispozici také jako součást vyladění modelu pro gpt-4o a gpt-4o-mini. Podrobnosti najdete v části s podrobným laděním na stránce s cenami.

Podpora rozhraní API

Oficiální podpora ukládání výzev do mezipaměti byla poprvé přidána ve verzi 2024-10-01-previewrozhraní API . V tuto chvíli podporuje cached_tokens parametr odpovědi rozhraní API pouze řada modelů o1.

Začínáme

Aby žádost využila výhod ukládání výzvy do mezipaměti, musí být obě:

Minimálně 1 024 tokenů.
Prvních 1 024 tokenů v příkazovém řádku musí být stejné.

Když se najde shoda mezi výpočty tokenů v příkazovém řádku a aktuálním obsahem mezipaměti výzvy, označuje se jako přístup do mezipaměti. Přístupy do mezipaměti se zobrazí jako cached_tokens v prompt_tokens_details odpovědi na dokončení chatu.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Po dosažení prvních 1 024 přístupů do mezipaměti proběhne každých 128 dalších identických tokenů.

Rozdíl jednoho znaku v prvních 1 024 tokenech způsobí chybějící mezipaměť, která je charakterizována cached_tokens hodnotou 0. Ukládání výzev do mezipaměti je ve výchozím nastavení povolené bez další konfigurace vyžadované pro podporované modely.

Co je uložené v mezipaměti?

Modely řady o1 jsou pouze text a nepodporují systémové zprávy, obrázky, volání nástrojů/funkce nebo strukturované výstupy. Tím se omezí účinnost ukládání výzev do mezipaměti u těchto modelů na části pole zpráv, u kterých je méně pravděpodobné, že budou mít stejnou předponu tokenu 1024.

Ukládání do mezipaměti výzvy se podporuje pro:

Podpora ukládání do mezipaměti	Popis	Podporované modely
Zprávy	Celé pole zpráv: obsah systému, uživatele a asistenta	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (verze 2024-12-17)
Obrázky	Obrázky zahrnuté v uživatelských zprávách, a to jak jako odkazy, tak jako data zakódovaná v base64. Parametr podrobností musí být nastaven stejně napříč požadavky.	`gpt-4o` `gpt-4o-mini`
Použití nástroje	Pole zpráv i definice nástrojů.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (verze 2024-12-17)
Strukturované výstupy	Schéma strukturovaného výstupu je připojeno jako předpona systémové zprávy.	`gpt-4o` `gpt-4o-mini`

Aby se zlepšila pravděpodobnost výskytu přístupů do mezipaměti, měli byste požadavky strukturovat tak, aby se opakující obsah vyskytoval na začátku pole zpráv.

Můžu zakázat ukládání do mezipaměti?

Ukládání výzev do mezipaměti je ve výchozím nastavení povolené pro všechny podporované modely. Pro ukládání do mezipaměti není k dispozici žádná podpora odhlášení.

Sdílet prostřednictvím