Квоты и ограничения модели искусственного интеллекта Azure в службах ИИ Azure
В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.
Справочник по квотам и ограничениям
В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:
Ограничения ресурсов
Имя ограничения | Предельное значение |
---|---|
Ресурсы служб ИИ Azure для каждого региона на подписку Azure | 30 |
Максимальное количество развертываний на ресурс | 32 |
Ограничения скорости
Имя ограничения | Предельное значение |
---|---|
Маркеры в минуту (модели Azure OpenAI) | Зависит от модели и номера SKU. См . ограничения для Azure OpenAI. |
Маркеры в минуту (остальные модели) | 200,000 |
Запросы в минуту (модели Azure OpenAI) | Зависит от модели и номера SKU. См . ограничения для Azure OpenAI. |
Запросы в минуту (остальные модели) | 1,000 |
Другие ограничения
Имя ограничения | Предельное значение |
---|---|
Максимальное число пользовательских заголовков в запросахAPI 1 | 10 |
1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.
Уровни использования
Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.
Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.
Общие рекомендации по остаться в пределах ограничений скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.
Запрос увеличивается до квот и ограничений по умолчанию
Запросы на увеличение квоты можно отправлять и оценивать на каждый запрос. Отправьте запрос на обслуживание.
Следующие шаги
- Дополнительные сведения о моделях, доступных в службе вывода модели ИИ Azure