Квоты и ограничения модели искусственного интеллекта Azure в службах ИИ Azure

Статья
01/30/2025

В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.

Справочник по квотам и ограничениям

В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:

Ограничения ресурсов

Имя ограничения	Предельное значение
Ресурсы служб ИИ Azure для каждого региона на подписку Azure	30
Максимальное количество развертываний на ресурс	32

Ограничения скорости

Имя ограничения	Предельное значение
Маркеры в минуту (модели Azure OpenAI)	Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Маркеры в минуту (остальные модели)	200,000
Запросы в минуту (модели Azure OpenAI)	Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Запросы в минуту (остальные модели)	1,000

Другие ограничения

Имя ограничения	Предельное значение
Максимальное число пользовательских заголовков в запросах^{API 1}	10

¹ Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
Протестируйте различные шаблоны увеличения нагрузки.
Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Запрос увеличивается до квот и ограничений по умолчанию

Запросы на увеличение квоты можно отправлять и оценивать на каждый запрос. Отправьте запрос на обслуживание.

Следующие шаги

Дополнительные сведения о моделях, доступных в службе вывода модели ИИ Azure

Поделиться через