Sdílet prostřednictvím


Ukládání do mezipaměti výzvy

Ukládání do mezipaměti umožňuje snížit celkovou latenci požadavků a náklady na delší výzvy, které mají na začátku výzvy stejný obsah. Výzva v tomto kontextu odkazuje na vstup, který odešlete do modelu v rámci žádosti o dokončení chatu. Místo opětovného zpracování stejných vstupních tokenů je model schopný zachovat dočasnou mezipaměť zpracovaných vstupních dat, aby se zlepšil celkový výkon. Ukládání výzev do mezipaměti nemá žádný vliv na výstupní obsah vrácený v odpovědi modelu nad rámec snížení latence a nákladů. U podporovaných modelů se tokeny v mezipaměti účtují na 50% slevu na ceny vstupních tokenů.

Podporované modely

V současné době podporují ukládání do mezipaměti pomocí Azure OpenAI pouze následující modely:

  • o1-preview-2024-09-12
  • o1-mini-2024-09-12
  • gpt-4o-2024-05-13
  • gpt-4o-2024-08-06
  • gpt-4o-mini-2024-07-18

Podpora rozhraní API

Oficiální podpora ukládání výzev do mezipaměti byla poprvé přidána ve verzi 2024-10-01-previewrozhraní API . V tuto chvíli podporují cached_tokens pouze o1-preview-2024-09-12 parametry odpovědi rozhraní API a o1-mini-2024-09-12 modely.

Začínáme

Aby žádost využila výhod ukládání výzvy do mezipaměti, musí být obě:

  • Minimálně 1 024 tokenů.
  • Prvních 1 024 tokenů v příkazovém řádku musí být stejné.

Když se najde shoda mezi výzvou a aktuálním obsahem mezipaměti výzvy, označuje se jako přístup do mezipaměti. Přístupy do mezipaměti se zobrazí jako cached_tokens v prompt_token_details odpovědi na dokončení chatu.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Po dosažení prvních 1 024 přístupů do mezipaměti proběhne každých 128 dalších identických tokenů.

Rozdíl jednoho znaku v prvních 1 024 tokenech způsobí chybějící mezipaměť, která je charakterizována cached_tokens hodnotou 0. Ukládání výzev do mezipaměti je ve výchozím nastavení povolené bez další konfigurace vyžadované pro podporované modely.

Co je uložené v mezipaměti?

Modely řady o1 jsou pouze text a nepodporují systémové zprávy, obrázky, volání nástrojů/funkce nebo strukturované výstupy. Tím se omezí účinnost ukládání výzev do mezipaměti u těchto modelů na části pole zpráv, u kterých je méně pravděpodobné, že budou mít stejnou předponu tokenu 1024.

Pro gpt-4o a gpt-4o-mini modely se podporuje ukládání do mezipaměti výzvy pro:

Podpora ukládání do mezipaměti Popis
Zprávy Celé pole zpráv: obsah systému, uživatele a asistenta
Obrázky Obrázky zahrnuté v uživatelských zprávách, a to jak jako odkazy, tak jako data zakódovaná v base64. Parametr podrobností musí být nastaven stejně napříč požadavky.
Použití nástroje Definice polí zpráv i nástrojů
Strukturované výstupy Schéma strukturovaného výstupu je připojeno jako předpona systémové zprávy.

Aby se zlepšila pravděpodobnost výskytu přístupů do mezipaměti, měli byste požadavky strukturovat tak, aby se opakující obsah vyskytoval na začátku pole zpráv.

Můžu zakázat ukládání do mezipaměti?

Ukládání do mezipaměti výzvy je ve výchozím nastavení povolené. Není k dispozici žádná možnost odhlášení.

Jak funguje ukládání do mezipaměti pro zřízená nasazení?

U podporovaných modelů při zřízených nasazeních sleva až 100 % vstupních tokenů uložených v mezipaměti. Další informace najdete v naší dokumentaci ke zřízené propustnosti.