Promptzwischenspeicherung

Artikel
03/03/2025

Mit der Promptzwischenspeicherung können Sie die gesamte Anforderungslatenz und die Kosten für längere Prompts reduzieren, die identischen Inhalt am Anfang des Prompts aufweisen. Prompt ist in diesem Kontext die Eingabe, die Sie im Rahmen Ihrer Chatvervollständigungsanforderung an das Modell senden. Anstatt dieselben Eingabetoken immer wieder neu zu verarbeiten, kann der Dienst einen temporären Cache mit verarbeiteten Eingabetokenberechnungen erstellen, um die Gesamtleistung zu verbessern. Die Promptzwischenspeicherung hat keine Auswirkungen auf den Ausgabeinhalt, der in der Modellantwort zurückgegeben wird, sondern verringert nur die Latenz und Kosten. Für unterstützte Modelle werden zwischengespeicherte Token mit einem Rabatt auf die Eingabetokenpreise bei „Standard“-Bereitstellungstypen und mit bis zu 100 % Rabatt auf Eingabetoken für „Provisioned“-Bereitstellungstypen in Rechnung gestellt.

Caches werden in der Regel nach 5 bis 10 Minuten Inaktivität geleert und immer innerhalb einer Stunde nach der letzten Verwendung des Cache entfernt. Promptcaches werden nicht von mehreren Azure-Abonnements gleichzeitig genutzt.

Unterstützte Modelle

Derzeit unterstützen nur die folgenden Modelle die Promptzwischenspeicherung mit Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (Version 2024-12-17)
gpt-4o-mini-realtime-preview (Version 2024-12-17)

Hinweis

Das Zwischenspeichern von Prompts ist jetzt auch im Rahmen der Modelloptimierung für gpt-4o und gpt-4o-miniverfügbar. Weitere Informationen finden Sie im Abschnitt zur Optimierung auf der Seite mit der Preisübersicht.

API-Unterstützung

Offizielle Unterstützung für die Promptzwischenspeicherung wurde zuerst in der API-Version 2024-10-01-preview hinzugefügt. Derzeit wird der API-Antwortparameter cached_tokens nur von der o1-Modellfamilie unterstützt.

Erste Schritte

Damit eine Anforderung das Zwischenspeichern der Anforderung nutzen kann, muss diese zwei Kriterien erfüllen:

Mindestens 1.024 Token lang
Die ersten 1.024 Token im Prompt müssen identisch sein.

Wenn eine Übereinstimmung zwischen den Tokenberechnungen in einem Prompt und dem aktuellen Inhalt des Promptcache gefunden wird, wird dies als „Cachetreffer“ bezeichnet. Cachetreffer werden als cached_tokens unter prompt_tokens_details in der Chatvervollständigungsantwort angezeigt.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Nach den ersten 1.024 Token erfolgen Cachetreffer pro 128 zusätzlichen identischen Token.

Ein einzelner Zeichenunterschied in den ersten 1.024 Token führt zu einem Cachefehler, der durch einen cached_tokens-Wert von 0 gekennzeichnet ist. Die Promptzwischenspeicherung ist standardmäßig aktiviert, ohne dass zusätzliche Konfiguration für unterstützte Modelle erforderlich ist.

Was wird zwischengespeichert?

Die Featureunterstützung der o1-Serienmodelle variiert je nach Modell. Weitere Details finden Sie in unserem dedizierten Leitfaden zu Begründungsmodellen.

Das Zwischenspeichern von Prompts wird für Folgendes unterstützt:

Zwischenspeichern unterstützt	Beschreibung	Unterstützte Modelle
Meldungen	Das vollständige Nachrichtenarray: Inhalte zu System, Entwicklerinnen, Benutzerinnen und Assistenten	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (Version 2024-12-17) `gpt-4o-mini-realtime-preview` (Version 2024-12-17) `o1` (Version 2024-12-17)
Bilder	Bilder, die in Benutzernachrichten enthalten sind, sowohl als Links als auch als base64-codierte Daten Der Detailparameter muss alle Anforderungen gleich sein.	`gpt-4o` `gpt-4o-mini` `o1` (Version 2024-12-17)
Toolverwendung	Sowohl das Nachrichtenarray als auch die Tooldefinitionen	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (Version 2024-12-17) `gpt-4o-mini-realtime-preview` (Version 2024-12-17) `o1` (Version 2024-12-17)
Strukturierte Ausgaben	Das strukturierte Ausgabeschema wird als Präfix an die Systemmeldung angefügt.	`gpt-4o` `gpt-4o-mini` `o1` (Version 2024-12-17)

Um die Wahrscheinlichkeit von Cachetreffern zu verbessern, sollten Sie Ihre Anforderungen so strukturieren, dass sich wiederholende Inhalte sich am Anfang des Nachrichtenarrays befinden.

Kann ich die Promptzwischenspeicherung deaktivieren?

Das Zwischenspeichern von Prompts ist für alle unterstützten Modelle standardmäßig aktiviert. Es gibt keine Kündigungsunterstützung für das Zwischenspeichern von Prompts.

Freigeben über