Azure AI サービスでの Azure AI モデル推論のクォータと制限
この記事には、Azure AI サービス内の Azure AI モデルの推論のクォータと制限に関するクイック リファレンスと詳細な説明が記載されています。 Azure OpenAI Service に固有のクォータと制限については、Azure OpenAI Service でのクォータと制限に関する記事を参照してください。
クォータと制限のリファレンス
以降のセクションでは、Azure AI サービス内の Azure AI モデルの推論サービスに適用される既定のクォータと制限に関するクイック ガイドを提供します。
リソース制限
制限名 | 制限値 |
---|---|
各 Azure サブスクリプションのリージョンあたりの Azure AI サービス リソース数 | 30 |
リソースあたりの最大デプロイ数 | 32 |
転送率の制限
制限名 | 制限値 |
---|---|
1 分あたりのトークン数 (Azure OpenAI モデル) | モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。 |
1 分あたりのトークン数 (それ以外のモデル) | 200.000 |
1 分あたりの要求数 (Azure OpenAI モデル) | モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。 |
1 分あたりの要求数 (それ以外のモデル) | 1.000 |
その他の制限
制限名 | 制限値 |
---|---|
API 要求内のカスタム ヘッダーの最大数1 | 10 |
1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 一部のお客様はこのヘッダー数を超過しており、HTTP 431 エラーが発生していることが判明しています。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーの通過を停止します。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。
使用量レベル
グローバル標準のデプロイでは、Azure のグローバル インフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。 これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。
使用制限によって、その使用量レベルを超えると応答待ち時間のばらつきが増す可能性があるお客様が決定されます。 お客様の使用量はモデルごとに定義され、これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。
レート制限内に収まるようにするための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
既定のクォータと制限の引き上げを要求する
クォータの引き上げ要求は、要求ごとに送信して評価を受けることができます。 サービス要求を送信します。
次のステップ
- Azure AI モデルの推論サービスで使用可能なモデルの詳細を確認します