Freigeben über


Promptzwischenspeicherung

Mit der Promptzwischenspeicherung können Sie die gesamte Anforderungslatenz und die Kosten für längere Prompts reduzieren, die identischen Inhalt am Anfang des Prompts aufweisen. Prompt ist in diesem Kontext die Eingabe, die Sie im Rahmen Ihrer Chatvervollständigungsanforderung an das Modell senden. Anstatt dieselben Eingabetoken immer wieder neu zu verarbeiten, kann der Dienst einen temporären Cache mit verarbeiteten Eingabetokenberechnungen erstellen, um die Gesamtleistung zu verbessern. Die Promptzwischenspeicherung hat keine Auswirkungen auf den Ausgabeinhalt, der in der Modellantwort zurückgegeben wird, sondern verringert nur die Latenz und Kosten. Für unterstützte Modelle werden zwischengespeicherte Token mit einem Rabatt auf die Eingabetokenpreise bei „Standard“-Bereitstellungstypen und mit bis zu 100 % Rabatt auf Eingabetoken für „Provisioned“-Bereitstellungstypen in Rechnung gestellt.

Caches werden in der Regel nach 5 bis 10 Minuten Inaktivität geleert und immer innerhalb einer Stunde nach der letzten Verwendung des Cache entfernt. Promptcaches werden nicht von mehreren Azure-Abonnements gleichzeitig genutzt.

Unterstützte Modelle

Derzeit unterstützen nur die folgenden Modelle die Promptzwischenspeicherung mit Azure OpenAI:

  • o1-2024-12-17
  • o1-preview-2024-09-12
  • o1-mini-2024-09-12
  • gpt-4o-2024-11-20
  • gpt-4o-2024-08-06
  • gpt-4o-mini-2024-07-18
  • gpt-4o-realtime-preview (Version 2024-12-17)

Hinweis

Das Zwischenspeichern von Prompts ist jetzt auch im Rahmen der Modelloptimierung für gpt-4o und gpt-4o-miniverfügbar. Weitere Informationen finden Sie im Abschnitt zur Optimierung auf der Seite mit der Preisübersicht.

API-Unterstützung

Offizielle Unterstützung für die Promptzwischenspeicherung wurde zuerst in der API-Version 2024-10-01-preview hinzugefügt. Derzeit wird der API-Antwortparameter cached_tokens nur von der o1-Modellfamilie unterstützt.

Erste Schritte

Damit eine Anforderung das Zwischenspeichern der Anforderung nutzen kann, muss diese zwei Kriterien erfüllen:

  • Mindestens 1.024 Token lang
  • Die ersten 1.024 Token im Prompt müssen identisch sein.

Wenn eine Übereinstimmung zwischen den Tokenberechnungen in einem Prompt und dem aktuellen Inhalt des Promptcache gefunden wird, wird dies als „Cachetreffer“ bezeichnet. Cachetreffer werden als cached_tokens unter prompt_tokens_details in der Chatvervollständigungsantwort angezeigt.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Nach den ersten 1.024 Token erfolgen Cachetreffer pro 128 zusätzlichen identischen Token.

Ein einzelner Zeichenunterschied in den ersten 1.024 Token führt zu einem Cachefehler, der durch einen cached_tokens-Wert von 0 gekennzeichnet ist. Die Promptzwischenspeicherung ist standardmäßig aktiviert, ohne dass zusätzliche Konfiguration für unterstützte Modelle erforderlich ist.

Was wird zwischengespeichert?

Die o1-Serienmodelle sind nur Text und unterstützen keine Systemmeldungen, Bilder, Toolverwendungs-/Funktionsaufrufe oder strukturierte Ausgaben. Dies beschränkt die Wirksamkeit der Promptzwischenspeicherung für diese Modelle auf die Benutzer-/Assistententeile des Nachrichtenarrays, die weniger wahrscheinlich ein identisches 1024-Token-Präfix aufweisen.

Das Zwischenspeichern von Prompts wird für Folgendes unterstützt:

Zwischenspeichern unterstützt Beschreibung Unterstützte Modelle
Meldungen Das vollständige Nachrichtenarray: System-, Benutzer- und Assistenteninhalte gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (Version 2024-12-17)
Bilder Bilder, die in Benutzernachrichten enthalten sind, sowohl als Links als auch als base64-codierte Daten Der Detailparameter muss alle Anforderungen gleich sein. gpt-4o
gpt-4o-mini
Toolverwendung Sowohl das Nachrichtenarray als auch die Tooldefinitionen gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (Version 2024-12-17)
Strukturierte Ausgaben Das strukturierte Ausgabeschema wird als Präfix an die Systemmeldung angefügt. gpt-4o
gpt-4o-mini

Um die Wahrscheinlichkeit von Cachetreffern zu verbessern, sollten Sie Ihre Anforderungen so strukturieren, dass sich wiederholende Inhalte sich am Anfang des Nachrichtenarrays befinden.

Kann ich die Promptzwischenspeicherung deaktivieren?

Das Zwischenspeichern von Prompts ist für alle unterstützten Modelle standardmäßig aktiviert. Es gibt keine Kündigungsunterstützung für das Zwischenspeichern von Prompts.