Поделиться через


Квоты и ограничения модели искусственного интеллекта Azure в службах ИИ Azure

В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.

Справочник по квотам и ограничениям

В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:

Ограничения ресурсов

Имя ограничения Предельное значение
Ресурсы служб ИИ Azure для каждого региона на подписку Azure 30
Максимальное количество развертываний на ресурс 32

Ограничения скорости

Имя ограничения Предельное значение
Маркеры в минуту (модели Azure OpenAI) Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Маркеры в минуту (остальные модели) 200,000
Запросы в минуту (модели Azure OpenAI) Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Запросы в минуту (остальные модели) 1,000

Другие ограничения

Имя ограничения Предельное значение
Максимальное число пользовательских заголовков в запросахAPI 1 10

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Запрос увеличивается до квот и ограничений по умолчанию

Запросы на увеличение квоты можно отправлять и оценивать на каждый запрос. Отправьте запрос на обслуживание.

Следующие шаги