Перенос оптимизированных конечных точек для обслуживания LLM на выделенную пропускную способность
Важный
Эта документация устарела и больше не обновляется. Продукты, службы или технологии, упомянутые в этом контенте, больше не поддерживаются.
В этой статье описывается, как перенести существующие конечные точки предоставления LLM на использование нового опыта
Что меняется?
Подготовленная пропускная способность упрощает запуск оптимизированных конечных точек обслуживания LLM. Databricks изменил свою систему обслуживания модели LLM, чтобы:
- Диапазоны масштабирования наружу можно настроить в собственных терминах LLM, например токены в секунду вместо параллелизма.
- Клиентам больше не нужно select типы рабочих нагрузок GPU.
Новые конечные точки для обслуживания LLM создаются с зарезервированной пропускной способностью по умолчанию. Если вы хотите продолжить выбор типа рабочей нагрузки GPU, этот интерфейс поддерживается только с помощью API.
Перенос конечных точек обслуживания LLM в подготовленную пропускную способность
Самый простой способ переноса существующей конечной точки в подготовленную пропускную способность — update конечной точки с новой версией модели. После select новой версии модели пользовательский интерфейс отображает интерфейс для подготовленной пропускной способности. В пользовательском интерфейсе отображаются диапазоны скоростей обработки токенов в секунду на основе тестирования Databricks для типичных вариантов использования.
Производительность этого обновленного предложения значительно лучше благодаря улучшениям оптимизации, а цена на конечный узел остается неизменной. Обратитесь к model-serving-feedback@databricks.com
для отзывов или проблем с продуктами.