将优化的 LLM 终结点迁移到预配的吞吐量
本文介绍了如何使用基础模型 API将现有的 LLM 服务终结点迁移到预配的吞吐量体验。
有什么变化?
预配的吞吐量为启动优化的 LLM 服务终结点提供了更简单的体验。 Databricks 修改了其 LLM 模型服务系统,以便:
- 可以用 LLM 本机术语配置横向扩展范围,例如每秒令牌数(而不是并发数)。
- 客户不再需要自行选择 GPU 工作负载类型。
默认情况下,使用预配的吞吐量新建 LLM 服务终结点。 如果想要继续选择 GPU 工作负载类型,则只能使用 API 支持此体验。
将 LLM 服务终结点迁移到预配的吞吐量
将现有终结点迁移到预配吞吐量的最简单方法是使用新的模型版本更新终结点。 选择新的模型版本后,UI 会显示预配吞吐量的体验。 UI 根据典型用例的 Databricks 基准测试显示每秒令牌数范围。
由于优化改进,此更新产品/服务的性能更加出色,且终结点的价格保持不变。 请联系model-serving-feedback@databricks.com
了解产品反馈或问题。