Azure OpenAI Service のクォータと制限
この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。
クォータと制限のリファレンス
以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。
制限名 | 制限値 |
---|---|
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数 | 30 |
既定の DALL-E 2 クォータ制限 | 2 同時要求 |
既定の DALL-E 3 クォータ制限 | 2 容量ユニット (1 分あたり 6 要求) |
既定の Whisper クォータ制限 | 1 分あたり 3 要求 |
要求あたりの最大プロンプト トークン数 | モデルごとに異なります。 詳細については、「Azure OpenAI Service モデル」を参照してください。 |
リソースあたりの最大 Standard デプロイ数 | 32 |
微調整されたモデル デプロイの最大数 | 5 |
リソースあたりのトレーニング ジョブの合計数 | 100 |
リソースあたりの同時実行トレーニング ジョブの最大数 | 1 |
キューに入ったトレーニング ジョブの最大数 | 20 |
リソースあたりの最大ファイル数 (微調整) | 50 |
リソースあたりのすべてのファイルの合計サイズ (微調整) | 1 GB |
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) | 720 時間 |
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) | 20 億 |
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) | 16 MB |
/embeddings を含む配列内の最大数または入力数 |
2048 |
/chat/completions メッセージの最大数 |
2048 |
/chat/completions 関数の最大数 |
128 |
/chat completions ツールの最大数 |
128 |
デプロイあたりのプロビジョニング スループット ユニットの最大数 | 100,000 |
アシスタント/スレッドあたりの最大ファイル数 | API または AI Studio を使用する場合は 10,000。 Azure OpenAI Studio を使用する場合は 20。 |
アシスタントの最大ファイル サイズと微調整 | 512 MB |
アシスタント用にアップロードされたすべてのファイルの最大サイズ | 100 GB |
アシスタント トークンの制限 | 2,000,000 トークンの制限 |
GPT-4o 要求あたりの最大イメージ数 (メッセージ配列/会話履歴のイメージの数) | 10 |
GPT-4 vision-preview と GPT-4 turbo-2024-04-09 既定の最大トークン数 |
16 応答が切り捨てられないように max_tokens パラメーター値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。 |
API 要求内のカスタム ヘッダーの最大数1 | 10 |
1 分あたりの最大要求数 リアルタイム オーディオ ( gpt-4o-realtime-preview ) の現在のレート制限は、1 分あたりの新しい Websocket 接続の数として定義されます。 たとえば、1 分あたり 6 要求 (RPM) は、1 分あたり 6 つの新しい接続を意味します。 現時点では、gpt-4o-realtime-preview の使用制限はテストと開発に適しています。 |
1 分あたり 6 つの新しい接続 |
1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 現在、一部のお客様はこのヘッダー数を超えており、HTTP 431 エラーが発生しています。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーの通過を停止します。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。
リージョンのクォータ制限
リージョン | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 - GlobalStandard | gpt-4o - GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o - Global-Batch | GPT-4o-mini - Global-Batch | GPT-4 - Global-Batch | GPT-4-Turbo - Global-Batch | gpt-35-turbo - Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - finetune | GPT-4o-mini - finetune | GPT-4 - finetune | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 K | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
グローバル バッチ制限
制限名 | 制限値 |
---|---|
リソースあたりの最大ファイル数 | 500 |
最大入力ファイル サイズ | 200 MB |
ファイルあたりの最大要求数 | 100,000 |
グローバル バッチ クォータ
次の表はバッチのクォータ制限を示したものです。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。 バッチ ジョブが終了状態になるまで、これらのトークンはエンキューされたトークンの合計の制限に対してカウントされます。
モデル | エンタープライズ契約 | 既定値 | 月単位のクレジット カード ベースのサブスクリプション | MSDN サブスクリプション | Microsoft Azure for Students、無料試用版 |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | 該当なし |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 K | 該当なし |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | 該当なし |
gpt-4 |
150 M | 30 M | 5 M | 100 K | 該当なし |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 M | 50 K |
B = 10 億 | M = 100万 | K = 1,000
o1-preview と o1-mini のレート制限
重要
o1 シリーズ モデルのクォータの RPM/TPM 比率は、以前のチャット入力候補モデルとは動作が異なります。
- 以前のチャット モデル: 1 単位の容量 = 6 RPM および 1,000 TPM。
- o1-preview: 1 単位の容量 = 1 RPM および 6,000 TPM。
- o1-mini: 1 単位の容量 = 10,000 TPM あたり 1 RPM。
これは、プログラムによるモデル デプロイにとって特に重要です。以前のチャット入力候補モデルに従って 1:1000 の比率を前提としている場合、この RPM/TPM 比率の変更により、誤ってクォータの割り当て不足になる可能性があるためです。
クォータ/使用量 API には、以前の比率が新しい o1 シリーズ モデルに適用されると想定する既知の問題があります。 API は正しい基本の最大利用可能時間の数値を返しますが、TPM を正確に計算するための正しい比率は適用されません。
o1-preview と o1-mini のグローバル標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
o1-preview |
エンタープライズ契約 | 30 M | 5 K |
o1-mini |
エンタープライズ契約 | 50 M | 5 K |
o1-preview |
既定値 | 3 M | 500 |
o1-mini |
既定値 | 5 M | 500 |
o1-preview と o1-mini の標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
o1-preview |
エンタープライズ契約 | 600 K | 100 |
o1-mini |
エンタープライズ契約 | 1 M | 100 |
o1-preview |
既定値 | 300 K | 50 |
o1-mini |
既定値 | 500 K | 50 |
gpt-4o および GPT-4 Turbo のレート制限
gpt-4o
と gpt-4o-mini
、および gpt-4
(turbo-2024-04-09
) には特定のタイプのお客様向けのより高い上限を持つレート制限レベルが存在します。
gpt-4o および GPT-4 Turbo グローバル スタンダード
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 30 M | 180 K |
gpt-4o-mini |
エンタープライズ契約 | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
エンタープライズ契約 | 2 M | 12 K |
gpt-4o |
既定値 | 450 K | 2.7 K |
gpt-4o-mini |
既定値 | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
既定値 | 450 K | 2.7 K |
M = 100 万 | K = 1,000
gpt-4o データ ゾーン標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 10 M | 60 K |
gpt-4o-mini |
エンタープライズ契約 | 20,000,000 | 120 K |
gpt-4o |
既定値 | 300 K | 1.8 K |
gpt-4o-mini |
既定値 | 1 M | 6 K |
M = 100 万 | K = 1,000
gpt-4o Standard
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 1 M | 6 K |
gpt-4o-mini |
エンタープライズ契約 | 2 M | 12 K |
gpt-4o |
既定値 | 150 K | 900 |
gpt-4o-mini |
既定値 | 450 K | 2.7 K |
M = 100 万 | K = 1,000
使用量レベル
グローバル標準のデプロイでは、Azure のグローバル インフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 データ ゾーン標準のデプロイでは、Azure のグローバル インフラストラクチャを利用して、要求ごとに最適な可用性の Microsoft によって定義されたデータ ゾーン内のデータ センターに動的にトラフィックをルーティングできます。 これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。
使用制限によって、その使用量レベルを超えると応答待ち時間のばらつきが増す可能性があるお客様が決定されます。 顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。
Note
使用量レベルは、標準、データ ゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。
GPT-4o のグローバル標準、データ ゾーン標準、標準
モデル | 1 か月あたりの使用量レベル |
---|---|
gpt-4o |
120 億トークン |
gpt-4o-mini |
850 億トークン |
GPT-4 standard
モデル | 1 か月あたりの使用量レベル |
---|---|
gpt-4 + gpt-4-32k (すべてのバージョン) |
60 億 |
その他のプランの種類
Azure サブスクリプションが特定のオファーの種類にリンクされている場合、最大クォータは上記の表に示されている値より低くなります。
レベル | クォータ制限 (トークン/分) (TPM) |
---|---|
Microsoft Azure for Students、無料試用版 | 1 K (すべてのモデル) |
MSDN サブスクリプション | GPT 3.5 Turbo シリーズ: 30 K GPT-4 シリーズ: 8 K |
月単位のクレジット カード ベースのサブスクリプション 1 | GPT 3.5 Turbo シリーズ: 30 K GPT-4 シリーズ: 8 K |
1 これは現在、オファーの種類 0003P に適用されます
Azure portal で、サブスクリプションに関連付けられているオファーの種類を確認するには、サブスクリプションに移動し、サブスクリプションの概要ウィンドウをチェックします。 オファーの種類は、サブスクリプションの概要の [プラン] フィールドに対応します。
レート制限内に収まるようにするための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
既定のクォータと制限の引き上げを要求する方法
クォータの増加要求は、Azure AI Studio の [クォータ] ページから送信できます。 要望が多いため、受け付け中のクォータ引き上げ要求は、受け付けられた順に処理されます。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。
その他のレート制限については、サービス要求を送信してください。
次のステップ
Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。