Что означает диапазон токенов в секунду в предоставленной пропускной способности?
В этой статье описывается, как и почему Databricks измеряет токены в секунду для подготовленных нагрузок с пропускной способностью для API модели Foundation .
Производительность для больших языковых моделей (LLM) часто измеряется с точки зрения токенов в секунду. При настройке рабочих моделей, обслуживающих конечные точки, важно учитывать количество запросов, отправляемых приложению в конечную точку. Это помогает понять, нужно ли настроить конечную точку для масштабирования, чтобы не влиять на задержку.
При настройке диапазонов горизонтального масштабирования для конечных точек, развернутых с подготовленной пропускной способностью, Databricks было проще упорядочить вводимые в систему данные при помощи токенов.
Что такое токены?
LLMs считывает и generate текст с точки зрения того, что называется маркером. Маркеры могут быть словами или вложенными словами, а точные правила разделения текста на маркеры зависят от модели. Например, вы можете использовать онлайн-инструменты, чтобы узнать, как токенизатор Ламы преобразует слова в токены.
Зачем измерять производительность LLM с точки зрения токенов в секунду?
Обычно конечные точки обслуживания настраиваются на основе числа одновременных запросов в секунду (RPS). Однако время выполнения запроса ввода LLM различается в зависимости от количества передаваемых токенов и количества генерируемых токенов, что может привести к дисбалансу во времени обработки разных запросов. Таким образом, чтобы определить, каков должен быть масштаб вашей конечной точки, необходимо действительно измерить масштаб в терминах содержания вашего запроса — токенов.
Варианты использования различаются соотношениями входных и выходных токенов.
- различные длины входных контекстов: хотя некоторые запросы могут включать только несколько входных маркеров, например короткий вопрос, другие могут включать сотни или даже тысячи маркеров, например длинный документ для суммирования. Эта вариативность делает настройку конечной точки обслуживания только на основе RPS сложной, так как она не учитывает различные требования обработки различных запросов.
- различные длины выходных данных в зависимости от случая использования. Различные случаи использования для LLM могут привести к значительно различной длине выходных токенов. Создание выходных маркеров является наиболее интенсивной частью вывода LLM, поэтому это может значительно повлиять на пропускную способность. Например, суммирование включает более короткие ответы, питизер, но создание текста, например написание статей или описания продуктов, может generate гораздо больше ответов.
Как select маркеры в секунду для конечной точки?
Выделенные конечные точки с пропускной способностью настраиваются в терминах диапазона токенов в секунду, которые можно отправить в конечную точку. Конечная точка масштабируется вверх и вниз для обработки нагрузки вашего производственного приложения. Плата взимается за час, в зависимости от диапазона токенов в секунду, до которых конечная точка масштабируется.
Лучший способ определить диапазон токенов в секунду, который подойдет для вашей конечной точки с заранее подготовленной пропускной способностью в вашем случае использования, — это провести нагрузочный тест с репрезентативным набором данных. См. Проводите собственное тестирование конечных точек LLM.
Существует два важных фактора, которые следует учитывать:
Как Databricks измеряет производительность LLM в токенах в секунду
Databricks проводит сравнительный анализ конечных точек для рабочей нагрузки, представляющей типичные задачи суммирования для случаев использования генерации с дополненным извлечением. В частности, рабочая нагрузка состоит из следующих элементов:
- 2048 входных маркеров
- 256 выходных маркеров
Диапазоны маркеров, отображаемые объединить пропускную способность входных и выходных маркеров, и по умолчанию optimize для балансировки пропускной способности и задержки.
Databricks предоставляет данные о производительности, показывающие, что пользователи могут отправлять столько токенов в секунду одновременно на конечную точку при размере пакета 1 на запрос. Это имитирует несколько запросов, поступающих в конечную точку одновременно, что более точно представляет, как вы фактически используете конечную точку в рабочей среде.
Как работает автомасштабирование
Обслуживание моделей включает быструю систему автомасштабирования, которая масштабирует вычислительные мощности для удовлетворения требований по количеству токенов в секунду для приложения. Databricks масштабирует подготовленную пропускную способность в блоках токенов в секунду, поэтому плата взимается за дополнительные единицы подготовленной пропускной способности только при их использовании.