プロンプトキャッシュ

[アーティクル]
02/28/2025

プロンプトキャッシュを使用すると、プロンプトの先頭のコンテンツが同一のより長いプロンプトに対する要求の全体的な待機時間とコストを削減できます。このコンテキストにおける "プロンプト" とは、チャット完了要求の一部として、モデルに送信する入力を指します。同じ入力トークンを何度も再処理する代わりに、このサービスは、処理される入力トークン計算の一時キャッシュを保持して全体的なパフォーマンスを向上させることができます。プロンプトキャッシュは、モデルの応答で返される出力コンテンツに対して、待機時間とコストの削減以外に影響を与えません。サポートされているモデルの場合、キャッシュされたトークンは、標準デプロイの種類の場合は入力トークンの価格に対する割引で、プロビジョニングされたデプロイの種類の場合は入力トークンに対される最大 100% の割引で課金されます。

キャッシュは通常、非アクティブ状態から 5-10 分以内にクリアされ、キャッシュの最後の使用時から 1 時間以内に常に削除されます。プロンプトキャッシュは、Azure サブスクリプション間では共有されません。

サポートされているモデル

現時点では、次のモデルのみが Azure OpenAI でのプロンプトキャッシュをサポートしています。

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (バージョン 2024-12-17)
gpt-4o-mini-realtime-preview (バージョン 2024-12-17)

Note

プロンプトキャッシュは、gpt-4o と gpt-4o-mini のモデル微調整の一部としても使用できるようになりました。詳細については、価格ページの微調整のセクションを参照してください。

API のサポート

プロンプトキャッシュの公式サポートは、最初に API バージョン 2024-10-01-preview で追加されました。現時点では、o1 モデルファミリのみが cached_tokens API 応答パラメーターをサポートしています。

概要

要求でプロンプトキャッシュを利用するには、次の両方が必要です。

長さが 1,024 トークン以上。
プロンプトの先頭の 1,024 トークンが同一であること。

プロンプト内のトークン計算とプロンプトキャッシュの現在のコンテンツの間で一致が見つかった場合、それはキャッシュヒットと呼ばれます。キャッシュヒットは、チャット完了応答の prompt_tokens_details の下に cached_tokens として表示されます。

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

先頭の 1,024 トークンの後は、同一の 128 トークンが追加されるごとにキャッシュヒットが発生します。

先頭の 1,024 トークン内で 1 文字でも違うとキャッシュミスになり、cached_tokens 値が 0 に設定されます。プロンプトキャッシュは既定で有効になっており、サポートされているモデルでは追加の構成は必要ありません。

キャッシュされるもの

o1 シリーズモデル機能のサポートは、モデルによって異なります。詳細については、専用の推論モデルガイドを参照してください。

プロンプトキャッシュは以下に対してサポートされます:

サポートされるキャッシュ	説明	サポートされているモデル
Messages (メッセージ)	完全なメッセージ配列: システム、開発者、ユーザー、アシスタントのコンテンツ	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (バージョン 2024-12-17) `gpt-4o-mini-realtime-preview` (バージョン 2024-12-17) `o1` (バージョン 2024-12-17)
Images	ユーザーメッセージに含まれる画像 (リンクまたは base64 でエンコードされたデータの両方)。詳細パラメーターは、要求間で同じに設定する必要があります。	`gpt-4o` `gpt-4o-mini` `o1` (バージョン 2024-12-17)
ツールの使用	メッセージ配列とツール定義の両方。	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (バージョン 2024-12-17) `gpt-4o-mini-realtime-preview` (バージョン 2024-12-17) `o1` (バージョン 2024-12-17)
構造化出力	構造化出力スキーマは、プレフィックスとしてシステムメッセージに追加されます。	`gpt-4o` `gpt-4o-mini` `o1` (バージョン 2024-12-17)

キャッシュヒットが発生する可能性を高めるには、メッセージ配列の先頭で繰り返しコンテンツが発生するように要求を構造化する必要があります。