こんにちは nakagawa,
- オートスケーリングを伴う複数の管理エンドポイントの負荷分散方法
Azure MLモデルエンドポイントでは、負荷分散は単一のエンドポイント内のデプロイメントレベルで管理されます。エンドポイント内では、複数のデプロイメント(モデルのバージョン)を作成し、トラフィックルールを使用してそれらの間でトラフィックを分配できます。トラフィックは特定の割合に基づいて割り当てることができます。
詳細については、こちらを参照してください。
- オートスケーリングにおけるVMの最大コア数のクォータ設定
インスタンスを選択する必要があり、コアを選択する必要はありません。通常、インスタンスを選択すると、コアの数とコストが表示されます。
追加する必要があるのはインスタンスの数だけで、十分なクォータがあることを確認してください。
ここに記載されています
アップグレードを行うために、20%の追加計算リソースを確保します。たとえば、デプロイメントで10インスタンスを要求する場合、12のクォータを持っている必要があります。
ここでは12のインスタンスが必要で、選択したインスタンスが4コアの場合、48コアのクォータが必要です。
私は英語からの回答を翻訳していますので、文法的な問題があればお許しください。