次の方法で共有


プロンプト キャッシュ

プロンプト キャッシュを使用すると、プロンプトの先頭のコンテンツが同一のより長いプロンプトに対する要求の全体的な待機時間とコストを削減できます。 このコンテキストにおける "プロンプト" とは、チャット完了要求の一部として、モデルに送信する入力を指します。 同じ入力トークンを何度も再処理する代わりに、このサービスは、処理される入力トークン計算の一時キャッシュを保持して全体的なパフォーマンスを向上させることができます。 プロンプト キャッシュは、モデルの応答で返される出力コンテンツに対して、待機時間とコストの削減以外に影響を与えません。 サポートされているモデルの場合、キャッシュされたトークンは、標準デプロイの種類の場合は入力トークンの価格に対する割引で、プロビジョニングされたデプロイの種類の場合は入力トークンに対される最大 100% の割引で課金されます。

キャッシュは通常、非アクティブ状態から 5-10 分以内にクリアされ、キャッシュの最後の使用時から 1 時間以内に常に削除されます。 プロンプト キャッシュは、Azure サブスクリプション間では共有されません。

サポートされているモデル

現時点では、次のモデルのみが Azure OpenAI でのプロンプト キャッシュをサポートしています。

  • o1-2024-12-17
  • o1-preview-2024-09-12
  • o1-mini-2024-09-12
  • gpt-4o-2024-11-20
  • gpt-4o-2024-08-06
  • gpt-4o-mini-2024-07-18
  • gpt-4o-realtime-preview (バージョン 2024-12-17)`

Note

プロンプト キャッシュは、gpt-4ogpt-4o-mini のモデル微調整の一部としても使用できるようになりました。 詳細については、価格ページの微調整のセクションを参照してください。

API のサポート

プロンプト キャッシュの公式サポートは、最初に API バージョン 2024-10-01-preview で追加されました。 現時点では、o1 モデル ファミリのみが cached_tokens API 応答パラメーターをサポートしています。

概要

要求でプロンプト キャッシュを利用するには、次の両方が必要です。

  • 長さが 1,024 トークン以上。
  • プロンプトの先頭の 1,024 トークンが同一であること。

プロンプト内のトークン計算とプロンプト キャッシュの現在のコンテンツの間で一致が見つかった場合、それはキャッシュ ヒットと呼ばれます。 キャッシュ ヒットは、チャット完了応答の prompt_tokens_details の下に cached_tokens として表示されます。

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

先頭の 1,024 トークンの後は、同一の 128 トークンが追加されるごとにキャッシュ ヒットが発生します。

先頭の 1,024 トークン内で 1 文字でも違うとキャッシュ ミスになり、cached_tokens 値が 0 に設定されます。 プロンプト キャッシュは既定で有効になっており、サポートされているモデルでは追加の構成は必要ありません。

キャッシュされるもの

o1 シリーズ モデルはテキストのみであり、システム メッセージ、画像、ツールの使用/関数呼び出し、構造化出力はサポートされていません。 これにより、これらのモデルのプロンプト キャッシュの有効性は、同一の 1024 トークン プレフィックスを持つ可能性が低いメッセージ配列のユーザー/アシスタント部分に制限されます。

プロンプト キャッシュは以下に対してサポートされます:

サポートされるキャッシュ 説明 サポートされているモデル
Messages (メッセージ) 完全なメッセージ配列: システム、ユーザー、アシスタントのコンテンツ gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (バージョン 2024-12-17)
Images ユーザー メッセージに含まれる画像 (リンクまたは base64 でエンコードされたデータの両方)。 詳細パラメーターは、要求間で同じに設定する必要があります。 gpt-4o
gpt-4o-mini
ツールの使用 メッセージ配列とツール定義の両方。 gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (バージョン 2024-12-17)
構造化出力 構造化出力スキーマは、プレフィックスとしてシステム メッセージに追加されます。 gpt-4o
gpt-4o-mini

キャッシュ ヒットが発生する可能性を高めるには、メッセージ配列の先頭で繰り返しコンテンツが発生するように要求を構造化する必要があります。

プロンプト キャッシュを無効にすることはできますか?

プロンプト キャッシュは、サポートされているすべてのモデルに対して既定で有効になっています。 プロンプト キャッシュに対するオプトアウトのサポートはありません。