Поделиться через


Подключение подготовленных единиц пропускной способности

В этой статье описывается процесс подключения к подготовленным единицам пропускной способности (PTU). После завершения начальной адаптации рекомендуется ознакомиться с руководством по началу работы с PTU.

Когда следует использовать подготовленные единицы пропускной способности (PTU)

При наличии четко определенных, прогнозируемых требований к пропускной способности и задержке следует переключиться с стандартных развертываний на подготовленные развертывания. Как правило, это происходит, когда приложение готово к рабочей среде или уже развернуто в рабочей среде, и есть представление о ожидаемом трафике. Это позволяет пользователям точно прогнозировать необходимую емкость и избегать непредвиденных выставления счетов.

Типичные сценарии PTU

  • Приложение, готовое к рабочей среде или в рабочей среде.
  • Приложение, которое имеет прогнозируемые ожидания емкости и использования.
  • Приложение имеет требования к конфиденциальности в режиме реального времени и задержки.

Примечание.

При вызовах функций и вариантах использования агента использование маркеров может быть переменной. Перед переносом рабочих нагрузок в PTU необходимо подробно понять ожидаемое использование маркеров в минуту (TPM).

Размер и оценка: подготовленные развертывания

Определение правильного объема подготовленной пропускной способности или PTUS, необходимое для рабочей нагрузки, является важным шагом к оптимизации производительности и затрат. Если вы не знакомы с различными подходами, доступными для оценки пропускной способности на уровне системы, ознакомьтесь с рекомендациями по оценке пропускной способности на уровне системы в нашей документации по производительности и задержке. В этом разделе описывается, как использовать калькуляторы емкости Azure OpenAI для оценки количества ПТП, необходимых для поддержки данной рабочей нагрузки.

Оценка подготовленных единиц пропускной способности и затрат

Чтобы получить быструю оценку рабочей нагрузки с помощью входных и выходных TPM, используйте встроенный планировщик емкости в разделе сведений о развертывании на экране диалога развертывания. Встроенный планировщик емкости является частью рабочего процесса развертывания, чтобы упростить размер и выделение квоты для развертывания PTU для данной рабочей нагрузки. Дополнительные сведения о том, как определить и оценить данные доверенного платформенного модуля, ознакомьтесь с рекомендациями в нашей документации по производительности и задержке.

После заполнения входных и выходных данных TPM в встроенном калькуляторе емкости нажмите кнопку "Вычислить ", чтобы просмотреть рекомендацию по выделению PTU.

Снимок экрана: калькулятор емкости PTU рабочего процесса развертывания.

Чтобы оценить подготовленную емкость с помощью данных уровня запроса, откройте планировщик емкости в Azure AI Studio. Калькулятор емкости находится в разделе "Квота модели>общих ресурсов>Azure OpenAI", подготовленная.

Параметр "Подготовленная " и планировщик емкости доступны только в определенных регионах в области квоты, если этот параметр не отображается, если этот параметр не отображается в регионе квоты в Швецию Central , этот параметр будет доступен. Введите следующие параметры на основе рабочей нагрузки.

Входные данные Description
Модель Модель OpenAI, используемая вами. Например: GPT-4
Версия Версия модели, используемой для использования, например 0614
Пиковые вызовы в минуту Количество вызовов в минуту, которые, как ожидается, будут отправляться в модель
Маркеры в вызове запроса Количество маркеров в запросе для каждого вызова модели. Вызовы с большими запросами используют больше развертывания PTU. В настоящее время этот калькулятор предполагает одно значение запроса, поэтому для рабочих нагрузок с широкой дисперсией. Мы рекомендуем тестировать развертывание в трафике, чтобы определить наиболее точную оценку PTU, необходимую для развертывания.
Маркеры в ответе модели Количество маркеров, созданных при каждом вызове модели. Вызовы с большими размерами поколения будут использовать больше развертывания PTU. В настоящее время этот калькулятор предполагает одно значение запроса, поэтому для рабочих нагрузок с широкой дисперсией. Мы рекомендуем тестировать развертывание в трафике, чтобы определить наиболее точную оценку PTU, необходимую для развертывания.

После заполнения необходимых сведений нажмите кнопку "Вычислить " в выходном столбце.

Значения в выходном столбце — это предполагаемое значение единиц PTU, необходимых для предоставленных входных данных рабочей нагрузки. Первое выходное значение представляет предполагаемые единицы PTU, необходимые для рабочей нагрузки, округленные до ближайшего увеличения масштаба PTU. Второе выходное значение представляет необработанные предполагаемые единицы PTU, необходимые для рабочей нагрузки. Итоговые значения маркеров вычисляются с помощью следующего уравнения: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

Снимок экрана: калькулятор емкости

Примечание.

Калькуляторы емкости предоставляют оценку на основе простых критериев ввода. Самый точный способ определения емкости — тестировать развертывание с репрезентативной рабочей нагрузкой для вашего варианта использования.

Общие сведения о подготовленной модели приобретения пропускной способности

Azure OpenAI Provisioned и Global Provisioned покупаются по запросу почасовой основе на основе количества развернутых PTUS, с существенной скидкой на срок, доступной при покупке резервирований Azure.

Почасовая модель полезна для краткосрочных потребностей развертывания, таких как проверка новых моделей или получение емкости для хакатона.  Однако скидки, предоставляемые резервированием Azure для Azure OpenAI и глобальной подготовкой, являются значительными, и большинство клиентов с согласованным долгосрочным использованием найдет зарезервированную модель, чтобы быть лучшей ценностью.

Примечание.

Клиенты, подготовленные в Azure OpenAI, подключены до обновления самообслуживания августа, используют модель покупки, называемую моделью обязательств. Эти клиенты могут продолжать использовать эту старую модель покупки вместе с моделью покупки почасовой или резервирования. Модель обязательств недоступна для новых клиентов. Дополнительные сведения о модели приобретения обязательств и вариантах сосуществования и миграции см. в обновлении azure OpenAI, подготовленном в августе.

Почасовое использование

Подготовленные и глобальные подготовленные развертывания взимается почасовая ставка ($/PTU/hr) на количество развернутых PTUS.  Например, развертывание 300 PTU будет взиматься за почасовую ставку в 300 раз.  Все цены на Azure OpenAI доступны в калькуляторе цен Azure.

Если развертывание существует в течение частичного часа, оно получит пропорциональное плату в зависимости от количества минут, которые он был развернут в течение часа.  Например, развертывание, которое существует в течение 15 минут в течение часа, будет получать 1/4-ю почасовую плату. 

Если размер развертывания изменен, затраты на развертывание будут скорректированы в соответствии с новым числом PTUS.

Схема с почасовой выставлением счетов.

Оплата подготовленных и глобальных подготовленных развертываний почасовой основе идеально подходит для краткосрочных сценариев развертывания.  Например: проверка качества и производительности новых моделей или временное увеличение емкости PTU для покрытия события, такого как хакатон. 

Однако клиенты, которым требуется долгосрочное использование подготовленных и глобальных подготовленных развертываний, могут платить значительно меньше в месяц, приобретя скидку на срок с помощью резервирования Azure, как описано в следующем разделе.

Примечание.

Не рекомендуется масштабировать рабочие развертывания в соответствии с входящим трафиком и платить за них исключительно почасовой основе. Это происходит по двум причинам:

  • Экономия затрат, достигнутая путем приобретения резервирования Azure для Azure OpenAI Provisioned, значительно снижается, и во многих случаях это будет менее затратно для поддержания размера развертывания для полного объема рабочей среды, оплачиваемого через резервирование, чем для масштабирования развертывания с входящим трафиком.
  • Наличие неиспользуемой подготовленной квоты (PTUS) не гарантирует, что емкость будет доступна для поддержки увеличения размера развертывания при необходимости. Квота ограничивает максимальное количество ПТП, которые можно развернуть, но это не гарантия емкости. Подготовленная емкость для каждого региона и модального динамически изменяется в течение дня и может быть недоступна при необходимости. В результате рекомендуется поддерживать постоянное развертывание для покрытия потребностей трафика (оплачивается через резервирование).
  • Плата за развертывания в удаленном ресурсе будет продолжаться до очистки ресурса. Чтобы предотвратить это, удалите развертывание ресурса перед удалением ресурса. Дополнительные сведения см. в статье "Восстановление или очистка удаленных ресурсов служб ИИ Azure".

Резервирования Azure для подготовленных развертываний Azure OpenAI

Скидки на почасовую цену использования можно получить путем приобретения резервирования Azure для Azure OpenAI и глобальной подготовки. Резервирование Azure — это механизм скидок терминов, общий для многих продуктов Azure. Например, вычисление и Cosmos DB. Для Azure OpenAI Provisioned и Global Provisioned резервирование предоставляет скидку для оплаты фиксированного количества ПТУ в течение одного месяца или одного года. 

  • Резервирования Azure приобретены с помощью портал Azure, а не azure AI Studio Link на портал резервирования Azure.

  • Резервирования приобретены по регионам и могут быть гибко ограничены для покрытия использования из группы развертываний. Области резервирования включают:

    • Отдельные группы ресурсов или подписки

    • Группа подписок в группе управления

    • Все подписки в учетной записи выставления счетов

  • Новые резервирования можно приобрести для покрытия той же области, что и существующие резервирования, чтобы разрешить скидку на новые подготовленные развертывания. Область существующих резервирований также может быть обновлена в любое время без штрафа, например для покрытия новой подписки.

  • Резервирования можно отменить после покупки, но кредиты ограничены.

  • Если размер подготовленных развертываний в пределах резервирования превышает сумму резервирования, то за почасовую ставку взимается превышение. Например, если развертывание составляет 250 ПТП в пределах резервирования 200 PTU, 50 PTUs будут взиматься почасовой основе до тех пор, пока размеры развертывания не будут сокращены до 200 ПТУ, или создается новое резервирование для покрытия оставшихся 50.

  • Резервирования гарантируют скидку на выбранный срок.  Они не резервируют емкость службы или гарантируют, что она будет доступна при создании развертывания. Настоятельно рекомендуется, чтобы клиенты создавали развертывания перед покупкой резервирования, чтобы предотвратить превышение покупки резервирования.

Внимание

  • Доступность емкости для развертываний моделей является динамической и часто изменяется в разных регионах и моделях. Чтобы предотвратить покупку резервирования для более PTUS, чем можно использовать, сначала создайте развертывания, а затем приобретите резервирование Azure для покрытия развернутых PTUS. Эта рекомендация гарантирует, что вы можете воспользоваться скидкой на резервирование и предотвратить покупку обязательств по сроку действия, которые вы не можете использовать.

  • Требования к роли Azure и политике клиента для приобретения резервирования отличаются от требований, необходимых для создания развертывания или ресурса Azure OpenAI. Проверьте авторизацию для приобретения резервирований заранее, когда это необходимо сделать. Дополнительные сведения см. в документации по резервированию, подготовленной в Azure OpenAI.

Важно: изменение размера подготовленных резервирований Azure OpenAI

Суммы PTU в покупках резервирования не зависят от PTUS, выделенных в квоте или используемых в развертываниях. Вы можете приобрести резервирование для большего размера PTUs, чем у вас есть в квоте, или развернуть для требуемого региона, модели или версии. Кредиты на покупку резервирования ограничены, и клиенты должны предпринять шаги, чтобы обеспечить их размер резервирования в соответствии с развернутыми PTUS.

Рекомендуется всегда приобрести резервирование после создания развертываний. Это предотвращает покупку резервирования, а затем обнаруживает, что требуемая емкость недоступна для требуемого региона или модели.

Чтобы помочь клиентам приобрести правильные суммы резервирования. Общее количество ПТП в подписке и регионе, которые могут быть охвачены резервированием, перечислены на странице "Квоты" Azure AI Studio. См. сообщение "Доступные PTUS для резервирования".

Снимок экрана: доступная квота PTU.

Управление резервированиями Azure

После создания резервирования рекомендуется отслеживать его, чтобы убедиться, что он получает ожидаемое использование. Это можно сделать с помощью портала резервирования Azure или Azure Monitor. Дополнительные сведения об этих темах и других разделах см. здесь:

Следующие шаги