Model Serving の制限とリージョン
この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。
リソースとペイロードの制限
Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。
機能 | 細分性 | Limit |
---|---|---|
ペイロードのサイズ | 要求ごと | 16 MB。 基礎モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。 |
秒間クエリ (QPS) | ワークスペースごと | 200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行時間 | 要求ごと | 120 秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 4GB |
GPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります) |
プロビジョニング済みコンカレンシー | モデルごとおよびワークスペースごと | 200 個のコンカレンシー。 Databricks アカウント チームに問い合わせて増やすことができます。 |
オーバーヘッド待機時間 | 要求ごと | 50 ミリ秒未満 |
init スクリプト | init スクリプトはサポートされていません。 | |
Foundation Model API (トークンごとの支払い) のレート制限 | ワークスペースごと | ユース ケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。 - Llama 3.1 70B Instruct には、1 秒あたり 2 つのクエリと 1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。 - DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。 - Mixtral-8x 7B Instruct の既定のレート制限は、1 秒あたり 2 クエリです。 - GTE Large (En) のレート制限は 1 秒あたり 150 クエリです - BGE Large (En) のレート制限は、1 秒あたり 600 クエリです。 |
Foundation Model API (プロビジョニングされたスループット) のレート制限 | ワークスペースごと | 200 |
ネットワークとセキュリティの制限事項
- Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。
- プライベート接続 (Azure Private Link など) は、プロビジョニングされたスループットを使用するエンドポイントまたはカスタム モデルにサービスを提供するエンドポイントを提供するモデルでのみサポートされます。
- 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
- 運用環境のデプロイが不安定になるリスクがあるため、Model Serving では、既存のモデル イメージにセキュリティ パッチが提供されません。 最新のパッチは、新しいモデル バージョンから作成された新しいモデル イメージに含まれています。 詳細については、Databricks アカウント チームにお問い合わせください。
Foundation Model API の制限
Note
Foundation Model API の提供の一環として、Databricks は、データが発生したリージョンの外部でデータを処理する可能性がありますが、関連する 地理上の場所の外部では処理されません。
トークンごとの支払いとプロビジョニングされたスループットの両方ワークロードの場合:
- Foundation Model API エンドポイントのレート制限など、ガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
- ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
- 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
- エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
- GTE Large (En)埋め込みモデルでは、正規化された埋め込みは生成されません。
トークンごとの支払いの制限
Foundation Model API トークンごとの支払い ワークロードに関連する制限を次に示します。
- トークン単位の支払いのワークロードは、HIPAA やコンプライアンス セキュリティ プロファイル準拠ではありません。
- GTE Large (En) と Meta Llama 3.1 70B Instruct モデルは、トークンごとの支払い EU および米国でサポートされているリージョンで利用できます。
- 次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (英語版)
- ワークスペースがモデル サービス リージョン内にあり、米国または EU リージョンではない場合は、ワークスペースで geo データ処理を有効にする必要があります。 有効にすると、トークンごとの支払いワークロードが米国の にルーティングされます。Databricks Geo。 トークンごとの支払いワークロードを処理する地理的リージョンを確認するには、「 Databricks 指定サービスを参照してください。
プロビジョニングされたスループットの制限
Foundation Model API プロビジョニングされたスループット ワークロードに関連する制限を次に示します。
- プロビジョニングされたスループット は HIPAA コンプライアンス プロファイルをサポートし、コンプライアンス認定を必要とするワークロードに推奨されます。
- プロビジョニングされたスループットのワークロードに DBRX モデル アーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- 次の表は、サポートされている Meta Llama 3.1 および 3.2 モデルのリージョンの可用性を示しています。 微調整されたモデル デプロイする方法については 微調整された基盤モデルをデプロイする方法に関するガイダンスを参照してください。
メタラマモデルバリアント | 地域 |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
利用可能なリージョン
Note
サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。
ワークスペースがモデルサービスをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロール プレーンによって提供されている場合 ワークスペースはモデルサービスをサポートしません。 このようなワークスペースでサービスを提供するモデルを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
機能のリージョン可用性の詳細については、「リージョンの可用性に対応するモデル」を参照してください。