Поделиться через


Перенос оптимизированных конечных точек для обслуживания LLM на выделенную пропускную способность

Важный

Эта документация устарела и больше не обновляется. Продукты, службы или технологии, упомянутые в этом контенте, больше не поддерживаются.

В этой статье описывается, как перенести существующие конечные точки предоставления LLM на использование нового опыта с обеспеченной пропускной способностью, доступного через APIмодели Foundation .

Что меняется?

Подготовленная пропускная способность упрощает запуск оптимизированных конечных точек обслуживания LLM. Databricks изменил свою систему обслуживания модели LLM, чтобы:

  • Диапазоны масштабирования наружу можно настроить в собственных терминах LLM, например токены в секунду вместо параллелизма.
  • Клиентам больше не нужно select типы рабочих нагрузок GPU.

Новые конечные точки для обслуживания LLM создаются с зарезервированной пропускной способностью по умолчанию. Если вы хотите продолжить выбор типа рабочей нагрузки GPU, этот интерфейс поддерживается только с помощью API.

Перенос конечных точек обслуживания LLM в подготовленную пропускную способность

Самый простой способ переноса существующей конечной точки в подготовленную пропускную способность — update конечной точки с новой версией модели. После select новой версии модели пользовательский интерфейс отображает интерфейс для подготовленной пропускной способности. В пользовательском интерфейсе отображаются диапазоны скоростей обработки токенов в секунду на основе тестирования Databricks для типичных вариантов использования.

зарезервированная пропускная способность для обслуживания LLM

Производительность этого обновленного предложения значительно лучше благодаря улучшениям оптимизации, а цена на конечный узел остается неизменной. Обратитесь к model-serving-feedback@databricks.com для отзывов или проблем с продуктами.