Model Serving の制限とリージョン

[アーティクル]
02/04/2025

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

機能	細分性	Limit
ペイロードのサイズ	要求ごと	16 MB。基盤モデル、外部モデル、または AI エージェントサービスを提供するエンドポイントの場合、制限は 4 MB です。
要求/応答サイズ	要求ごと	1 MB を超える要求/応答はログに記録されません。
秒間クエリ (QPS)	ワークスペースごと	200 ですが、Databricks アカウントチームに連絡することで 25,000 以上に増やすことができます。
モデルの実行時間	要求ごと	120 秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	4GB
GPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みコンカレンシー	モデルごとおよびワークスペースごと	200 個のコンカレンシー。 Databricks アカウントチームに問い合わせて増やすことができます。
オーバーヘッド待機時間	要求ごと	50 ミリ秒未満
init スクリプト		init スクリプトはサポートされていません。
Foundation Model API (トークンごとの支払い) のレート制限	ワークスペースごと	ユースケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。 - Llama 3.3 70B の指示には、1 秒あたり 2 つのクエリと 1 時間あたり 1200 個のクエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。 - DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。 - Mixtral-8x 7B Instruct の既定のレート制限は、1 秒あたり 2 クエリです。 - GTE Large (En) のレート制限は 1 秒あたり 150 クエリです - BGE Large (En) のレート制限は、1 秒あたり 600 クエリです。
Foundation Model API (プロビジョニングされたスループット) のレート制限	ワークスペースごと	200

ネットワークとセキュリティの制限事項

Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレスルールを尊重します。
プライベート接続 (Azure Private Link など) は、プロビジョニングされたスループットを使用するエンドポイントまたはカスタムモデルにサービスを提供するエンドポイントを提供するモデルでのみサポートされます。
既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。この機能のサポートは、リージョンごとに評価および実装されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。
運用環境のデプロイが不安定になるリスクがあるため、Model Serving では、既存のモデルイメージにセキュリティパッチが提供されません。最新のパッチは、新しいモデルバージョンから作成された新しいモデルイメージに含まれています。詳細については、Databricks アカウントチームにお問い合わせください。

Foundation Model API の制限

Note

Foundation Model API の提供の一環として、Databricks は、データが発生したリージョンとクラウドプロバイダーの外部でデータを処理する場合があります。

Note

Foundation Model API の提供の一環として、Databricks は、データが発生したリージョンの外部でデータを処理する可能性がありますが、関連する地理上の場所の外部では処理されません。

トークンごとの支払いとプロビジョニングされたスループットの両方ワークロードの場合:

Foundation Model API エンドポイントのレート制限など、ガバナンス設定を変更できるのはワークスペース管理者だけです。レート制限を変更するには、以下の手順を使用します。
1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
2. 編集したい Foundation Model API エンドポイントのケバブメニューから、[詳細の表示] を選択します。
3. エンドポイントの詳細ページの右上にあるケバブメニューから、[レート制限の変更] を選択します。
GTE Large (En)埋め込みモデルでは、正規化された埋め込みは生成されません。

トークンごとの支払いの制限

Foundation Model API トークンごとの支払い ワークロードに関連する制限を次に示します。

トークン単位の支払いのワークロードは、HIPAA やコンプライアンスセキュリティプロファイル準拠ではありません。
Meta Llama 3.3 70B および GTE Large (En) モデルは、トークン単位の支払いの EU および米国のサポート対象リージョンで使用できます。
次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (英語版)
ワークスペースがモデルサービスリージョン内にあり、米国または EU リージョンではない場合は、ワークスペースで geo データ処理を有効にする必要があります。有効にすると、トークンごとの支払いワークロードが米国のにルーティングされます。Databricks Geo。トークンごとの支払いワークロードを処理する地理的リージョンを確認するには、「 Databricks 指定サービスを参照してください。

プロビジョニングされたスループットの制限

Foundation Model API プロビジョニングされたスループット ワークロードに関連する制限を次に示します。

プロビジョニングされたスループット は HIPAA コンプライアンスプロファイルをサポートし、コンプライアンス認定を必要とするワークロードに推奨されます。
プロビジョニングされたスループットのワークロードに DBRX モデルアーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
次の表は、サポートされている Meta Llama 3.1、3.2、および 3.3 モデルの利用可能なリージョンを示しています。微調整されたモデルデプロイする方法については微調整された基盤モデルをデプロイする方法に関するガイダンスを参照してください。

メタラマモデルバリアント	地域
meta-llama/Llama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-8B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-405B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.1-405B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-1B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.3-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

プロビジョニングされたスループットの制限

Foundation Model API プロビジョニングされたスループット ワークロードに関連する制限を次に示します。

プロビジョニングされたスループット は HIPAA コンプライアンスプロファイルをサポートし、コンプライアンス認定を必要とするワークロードに推奨されます。

GTE Large (En)埋め込みモデルでは、正規化された埋め込みは生成されません。
次の表は、サポートされている Meta Llama 3.1、3.2、3.3 モデルの利用可能なリージョンを示しています。微調整されたモデルデプロイする方法については微調整された基盤モデルをデプロイする方法に関するガイダンスを参照してください。

メタラマモデルバリアント	地域
meta-llama/Llama-3.1-8B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.1-70B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-1B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-3B-Instruct	- `us-east1` - `us-central1`

利用可能なリージョン

Note

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービスをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによって提供されている場合ワークスペースはモデルサービスをサポートしません。このようなワークスペースでサービスを提供するモデルを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。

機能のリージョン可用性の詳細については、「リージョンの可用性に対応するモデル」を参照してください。

次の方法で共有

Model Serving の制限とリージョン

リソースとペイロードの制限

ネットワークとセキュリティの制限事項

Foundation Model API の制限

トークンごとの支払いの制限

プロビジョニングされたスループットの制限

プロビジョニングされたスループットの制限

利用可能なリージョン

フィードバック

その他のリソース