Azure AI サービスでの Azure AI モデル推論のクォータと制限

[アーティクル]
02/20/2025

この記事には、Azure AI サービス内の Azure AI モデルの推論のクォータと制限に関するクイックリファレンスと詳細な説明が記載されています。 Azure OpenAI Service に固有のクォータと制限については、Azure OpenAI Service でのクォータと制限に関する記事を参照してください。

クォータと制限のリファレンス

以降のセクションでは、Azure AI サービス内の Azure AI モデルの推論サービスに適用される既定のクォータと制限に関するクイックガイドを提供します。

リソース制限

制限名	制限値
各 Azure サブスクリプションのリージョンあたりの Azure AI サービスリソース数	30
リソースあたりの最大デプロイ数	32

転送率の制限

制限名	制限値
1 分あたりのトークン数 (Azure OpenAI モデル)	モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。
1 分あたりのトークン数 (それ以外のモデル)	200.000
1 分あたりの要求数 (Azure OpenAI モデル)	モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。
1 分あたりの要求数 (それ以外のモデル)	1.000

その他の制限

制限名	制限値
API 要求内のカスタムヘッダーの最大数¹	10

¹ 現在の API は最大 10 個のカスタムヘッダーを許容しており、これらはパイプラインを通過して返されます。一部のお客様はこのヘッダー数を超過しており、HTTP 431 エラーが発生していることが判明しています。ヘッダーボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタムヘッダーの通過を停止します。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないことをお勧めします。

使用量レベル

グローバル標準のデプロイでは、Azure のグローバルインフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。

使用制限によって、その使用量レベルを超えると応答待ち時間のばらつきが増す可能性があるお客様が決定されます。お客様の使用量はモデルごとに定義され、これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

レート制限内に収まるようにするための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

既定のクォータと制限の引き上げを要求する

クォータの引き上げ要求は、要求ごとに送信して評価を受けることができます。サービス要求を送信します。

次のステップ

Azure AI モデルの推論サービスで使用可能なモデルの詳細を確認します

次の方法で共有

Azure AI サービスでの Azure AI モデル推論のクォータと制限

クォータと制限のリファレンス

リソース制限

転送率の制限

その他の制限

使用量レベル

レート制限内に収まるようにするための一般的なベストプラクティス

既定のクォータと制限の引き上げを要求する

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure AI サービスでの Azure AI モデル推論のクォータと制限

クォータと制限のリファレンス

リソース制限

転送率の制限

その他の制限

使用量レベル

レート制限内に収まるようにするための一般的なベスト プラクティス

既定のクォータと制限の引き上げを要求する

次のステップ

フィードバック

その他のリソース

レート制限内に収まるようにするための一般的なベストプラクティス