最適化された LLM サービス エンドポイントをプロビジョニング済みスループットに移行する
重要
このドキュメントは廃止され、更新されない可能性があります。 このコンテンツに記載されている製品、サービス、またはテクノロジはサポートされなくなりました。
この記事では、Foundation Model APIを使用して、既存の LLM サービス エンドポイントを プロビジョニング済みスループット エクスペリエンスに移行する方法について説明します。
何が変更されていますか?
プロビジョニングされたスループットにより、最適化された LLM サービス エンドポイントを起動するためのエクスペリエンスが簡単になります。 Databricks は、次のことができるように LLM モデルサービス システムを変更しました。
- スケールアウト範囲は、コンカレンシーではなく、1 秒あたりのトークン数など、LLM ネイティブの用語で構成できます。
- お客様は、GPU ワークロードの種類自体を選択する必要がなくなりました。
既定では、プロビジョニングされたスループットで新しい LLM サービス エンドポイントが作成されます。 引き続き GPU ワークロードの種類を選択する場合、このエクスペリエンスは API を使用してのみサポートされます。
プロビジョニングされたスループットに LLM サービス エンドポイントを移行する
既存のエンドポイントをプロビジョニング済みスループットに移行する最も簡単な方法は、新しいモデル バージョンでエンドポイントを更新することです。 新しいモデル バージョンを選択すると、プロビジョニングされたスループットのエクスペリエンスが UI に表示されます。 UI には、一般的なユース ケースの Databricks ベンチマークに基づいて、1 秒あたりのトークン範囲が表示されます。
最適化の改善により、この更新されたオファリングのパフォーマンスは厳密に向上し、エンドポイントの価格は変更されません。 製品に関するフィードバックや懸念事項については、model-serving-feedback@databricks.com
にお問い合わせください。