次の方法で共有


Azure OpenAI Service のクォータと制限

この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。

制限名 制限値
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数 30
既定の DALL-E 2 クォータ制限 2 同時要求
既定の DALL-E 3 クォータ制限 2 容量ユニット (1 分あたり 6 要求)
既定の Whisper クォータ制限 1 分あたり 3 要求
要求あたりの最大プロンプト トークン数 モデルごとに異なります。 詳細については、「Azure OpenAI Service モデル」を参照してください。
リソースあたりの最大 Standard デプロイ数 32
微調整されたモデル デプロイの最大数 5
リソースあたりのトレーニング ジョブの合計数 100
リソースあたりの同時実行トレーニング ジョブの最大数 1
キューに入ったトレーニング ジョブの最大数 20
リソースあたりの最大ファイル数 (微調整) 50
リソースあたりのすべてのファイルの合計サイズ (微調整) 1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) 720 時間
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) 20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) 16 MB
/embeddings を含む配列内の最大数または入力数 2048
/chat/completions メッセージの最大数 2048
/chat/completions 関数の最大数 128
/chat completions ツールの最大数 128
デプロイあたりのプロビジョニング スループット ユニットの最大数 100,000
アシスタント/スレッドあたりの最大ファイル数 API または AI Studio を使用する場合は 10,000。 Azure OpenAI Studio を使用する場合は 20。
アシスタントの最大ファイル サイズと微調整 512 MB
アシスタント用にアップロードされたすべてのファイルの最大サイズ 100 GB
アシスタント トークンの制限 2,000,000 トークンの制限
GPT-4o 要求あたりの最大イメージ数 (メッセージ配列/会話履歴のイメージの数) 10
GPT-4 vision-preview と GPT-4 turbo-2024-04-09 既定の最大トークン数 16

応答が切り捨てられないように max_tokens パラメーター値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。
API 要求内のカスタム ヘッダーの最大数1 10

1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 一部のお客様はこのヘッダー数を超過しており、HTTP 431 エラーが発生していることが判明しています。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーの通過を停止します。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。

リージョンのクォータ制限

リージョン o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Global-Batch GPT-4o-mini - Global-Batch GPT-4 - Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - finetune GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 K 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

グローバル バッチ制限

制限名 制限値
リソースあたりの最大ファイル数 500
最大入力ファイル サイズ 200 MB
ファイルあたりの最大要求数 100,000

グローバル バッチ クォータ

次の表はバッチのクォータ制限を示したものです。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。 バッチ ジョブが終了状態になるまで、これらのトークンはエンキューされたトークンの合計の制限に対してカウントされます。

モデル エンタープライズ契約 既定値 月単位のクレジット カード ベースのサブスクリプション MSDN サブスクリプション Microsoft Azure for Students、無料試用版
gpt-4o 5 B 200 M 50 M 90 K 該当なし
gpt-4o-mini 15 B 1 B 50 M 90 K 該当なし
gpt-4-turbo 300 M 80 M 40 M 90 K 該当なし
gpt-4 150 M 30 M 5 M 100 K 該当なし
gpt-35-turbo 10 B 1 B 100 M 2 M 50 K

B = 10 億 | M = 100万 | K = 1,000

o1-preview と o1-mini のレート制限

重要

o1 シリーズ モデルのクォータの RPM/TPM 比率は、以前のチャット入力候補モデルとは動作が異なります。

  • 以前のチャット モデル: 1 単位の容量 = 6 RPM および 1,000 TPM。
  • o1-preview: 1 単位の容量 = 1 RPM および 6,000 TPM。
  • o1-mini: 1 単位の容量 = 10,000 TPM あたり 1 RPM。

これは、プログラムによるモデル デプロイにとって特に重要です。以前のチャット入力候補モデルに従って 1:1000 の比率を前提としている場合、この RPM/TPM 比率の変更により、誤ってクォータの割り当て不足になる可能性があるためです。

クォータ/使用量 API には、以前の比率が新しい o1 シリーズ モデルに適用されると想定する既知の問題があります。 API は正しい基本の最大利用可能時間の数値を返しますが、TPM を正確に計算するための正しい比率は適用されません。

o1-preview と o1-mini のグローバル標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
o1-preview エンタープライズ契約 30 M 5 K
o1-mini エンタープライズ契約 50 M 5 K
o1-preview 既定値 3 M 500
o1-mini 既定値 5 M 500

o1-preview と o1-mini の標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
o1-preview エンタープライズ契約 600 K 100
o1-mini エンタープライズ契約 1 M 100
o1-preview 既定値 300 K 50
o1-mini 既定値 500 K 50

gpt-4o および GPT-4 Turbo のレート制限

gpt-4ogpt-4o-mini、および gpt-4 (turbo-2024-04-09) には特定のタイプのお客様向けのより高い上限を持つレート制限レベルが存在します。

gpt-4o および GPT-4 Turbo グローバル スタンダード

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 30 M 180 K
gpt-4o-mini エンタープライズ契約 50 M 300 K
gpt-4 (turbo-2024-04-09) エンタープライズ契約 2 M 12 K
gpt-4o 既定値 450 K 2.7 K
gpt-4o-mini 既定値 2 M 12 K
gpt-4 (turbo-2024-04-09) 既定値 450 K 2.7 K

M = 100 万 | K = 1,000

gpt-4o データ ゾーン標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 10 M 60 K
gpt-4o-mini エンタープライズ契約 20,000,000 120 K
gpt-4o 既定値 300 K 1.8 K
gpt-4o-mini 既定値 1 M 6 K

M = 100 万 | K = 1,000

gpt-4o Standard

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 1 M 6 K
gpt-4o-mini エンタープライズ契約 2 M 12 K
gpt-4o 既定値 150 K 900
gpt-4o-mini 既定値 450 K 2.7 K

M = 100 万 | K = 1,000

使用量レベル

グローバル標準のデプロイでは、Azure のグローバル インフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 データ ゾーン標準のデプロイでは、Azure のグローバル インフラストラクチャを利用して、要求ごとに最適な可用性の Microsoft によって定義されたデータ ゾーン内のデータ センターに動的にトラフィックをルーティングできます。 これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。

使用制限によって、その使用量レベルを超えると応答待ち時間のばらつきが増す可能性があるお客様が決定されます。 顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

Note

使用量レベルは、標準、データ ゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。

GPT-4o のグローバル標準、データ ゾーン標準、標準

モデル 1 か月あたりの使用量レベル
gpt-4o 120 億トークン
gpt-4o-mini 850 億トークン

GPT-4 standard

モデル 1 か月あたりの使用量レベル
gpt-4 + gpt-4-32k (すべてのバージョン) 60 億

その他のプランの種類

Azure サブスクリプションが特定のオファーの種類にリンクされている場合、最大クォータは上記の表に示されている値より低くなります。

レベル クォータ制限 (トークン/分) (TPM)
Microsoft Azure for Students、無料試用版 1 K (すべてのモデル)
MSDN サブスクリプション GPT 3.5 Turbo シリーズ: 30 K
GPT-4 シリーズ: 8 K
月単位のクレジット カード ベースのサブスクリプション 1 GPT 3.5 Turbo シリーズ: 30 K
GPT-4 シリーズ: 8 K

1 これは現在、オファーの種類 0003P に適用されます

Azure portal で、サブスクリプションに関連付けられているオファーの種類を確認するには、サブスクリプションに移動し、サブスクリプションの概要ウィンドウをチェックします。 オファーの種類は、サブスクリプションの概要の [プラン] フィールドに対応します。

レート制限内に収まるようにするための一般的なベスト プラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
  • さまざまな負荷増加パターンをテストします。
  • デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。

既定のクォータと制限の引き上げを要求する方法

クォータの増加要求は、Azure AI Studio の [クォータ] ページから送信できます。 需要が殺到しているため、受け付け中のクォータ引き上げ要求は受け付けられた順に処理されることに注意してください。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。

その他のレート制限については、サービス要求を送信してください

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。