Типы развертывания в модели ИИ Azure
Вывод модели искусственного интеллекта Azure в службах ИИ Azure предоставляет клиентам выбор в структуре размещения, которая соответствует их бизнесу и шаблонам использования. Служба предлагает два основных типа развертывания: стандартный и подготовленный. Стандарт предлагается с глобальным вариантом развертывания, маршрутизация трафика глобально для обеспечения более высокой пропускной способности. Подготовка также предоставляется с помощью глобального варианта развертывания, что позволяет клиентам приобретать и развертывать подготовленные единицы пропускной способности в глобальной инфраструктуре Azure.
Все развертывания могут выполнять те же операции вывода, однако выставление счетов, масштабирование и производительность существенно отличаются. В рамках проектирования решения необходимо принять два ключевых решения:
- Требования к месту расположения данных: глобальные и региональные ресурсы
- Том вызова: стандартный и подготовленный
Поддержка типов развертывания зависит от модели и поставщика моделей. Вы можете увидеть, какой тип развертывания (SKU) поддерживается в разделе "Модели".
Глобальные и региональные типы развертывания
Для стандартных и подготовленных развертываний можно использовать два типа конфигураций в ресурсе — глобальный или региональный. Глобальный стандарт является рекомендуемой отправной точкой.
Глобальные развертывания используют глобальную инфраструктуру Azure, динамически направляет трафик клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это означает, что вы получаете самые высокие начальные ограничения пропускной способности и лучшую доступность модели с помощью global, обеспечивая время ожидания и низкую задержку. Для рабочих нагрузок с высоким объемом над указанными уровнями использования в стандартном и глобальном стандарте может возникнуть увеличение задержки. Для клиентов, которым требуется низкая задержка при большом использовании рабочей нагрузки, рекомендуется приобрести подготовленную пропускную способность.
Наши глобальные развертывания — это первое расположение для всех новых моделей и функций. Клиенты с большими требованиями к пропускной способности должны рассмотреть наше подготовленное предложение развертывания.
Стандартные
Стандартные развертывания предоставляют модель выставления счетов за вызов для выбранной модели. Обеспечивает самый быстрый способ начать работу только за то, что вы используете. Модели, доступные в каждом регионе и пропускной способности, могут быть ограничены.
Стандартные развертывания оптимизированы для низкой и средней рабочей нагрузки томов с высокой степенью ускорения. Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности.
Только модели Azure OpenAI поддерживают этот тип развертывания.
Глобальный стандарт
Глобальные развертывания доступны в одних и том же ресурсах служб ИИ Azure, что и не глобальные типы развертывания, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных с наилучшей доступностью для каждого запроса. Глобальный стандарт предоставляет максимальную квоту по умолчанию и устраняет необходимость балансировки нагрузки между несколькими ресурсами.
Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности. Пороговое значение устанавливается для каждой модели. Для приложений, требующих низкой задержки при большом использовании рабочей нагрузки, рекомендуется приобрести подготовленную пропускную способность при наличии.
Глобальный подготовленный
Глобальные развертывания доступны в одних и том же ресурсах служб ИИ Azure, что и не глобальные типы развертывания, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных с наилучшей доступностью для каждого запроса. Глобальные подготовленные развертывания обеспечивают зарезервированную емкость обработки модели для высокой и прогнозируемой пропускной способности с помощью глобальной инфраструктуры Azure.
Только модели Azure OpenAI поддерживают этот тип развертывания.