Использование бессерверных GPU в приложениях контейнеров Azure (предварительная версия)
Приложения контейнеров Azure предоставляют доступ к графическим процессорам по запросу без необходимости управлять базовой инфраструктурой. В качестве бессерверной функции вы оплачиваете только используемые GPU. Если этот параметр включен, количество графических процессоров, используемых для вашего приложения, растет и падает в соответствии с требованиями нагрузки приложения. Бессерверные графические процессоры позволяют легко запускать рабочие нагрузки с автоматическим масштабированием, оптимизированным холодным запуском, выставлением счетов в секунду с уменьшением масштаба до нуля, если не используется, а также сократить эксплуатационные расходы.
Бессерверные GPU поддерживаются только для профилей рабочих нагрузок потребления. Эта функция не поддерживается для сред только для потребления.
Примечание.
Доступ к GPU доступен только после запроса квот GPU. Вы можете отправить запрос на квоту GPU с помощью обращения в службу поддержки клиентов.
Льготы
Бессерверные графические процессоры ускоряют разработку ИИ, позволяя сосредоточиться на основном коде ИИ и меньшем управлении инфраструктурой при использовании GPU. Эта функция предоставляет возможность среднего уровня между бессерверными API каталога моделей Azure ИИ и моделями размещения в управляемых вычислительных ресурсах.
Поддержка бессерверных графических процессоров контейнерных приложений обеспечивает полное управление данными, так как данные никогда не покидают границы контейнера, предоставляя управляемую бессерверную платформу для создания приложений.
При использовании бессерверных GPU в контейнерных приложениях ваши приложения получают следующее:
Масштабирование до нуля GPU: поддержка автоматического бессерверного масштабирования GPU NVIDIA A100 и NVIDIA T4.
Выставление счетов в секунду: оплата только за используемые вычислительные ресурсы GPU.
Встроенное управление данными. Ваши данные никогда не покидают границу контейнера.
Гибкие параметры вычислений: можно выбрать типы GPU NVIDIA A100 или T4.
Средний уровень разработки ИИ: создание собственной модели на управляемой бессерверной вычислительной платформе.
Распространенные сценарии
В следующих сценариях, хотя и не исчерпывающих, описываются распространенные варианты использования бессерверных GPU.
Вывод в режиме реального времени и пакетной обработки: использование пользовательских моделей с открытым исходным кодом с быстрым временем запуска, автоматической масштабированием и моделью выставления счетов в секунду. Бессерверные GPU идеально подходят для динамических приложений. Вы платите только за используемые вычислительные ресурсы, а приложения автоматически масштабируется в соответствии с требованиями.
Сценарии машинного обучения: значительно ускоряйте приложения, реализующие настраиваемые модели создания ИИ, глубокое обучение, нейронные сети или крупномасштабный анализ данных.
Высокопроизводительные вычисления (HPC): приложения, требующие сложных вычислений и моделирования, таких как научные вычисления, финансовое моделирование или прогнозирование погоды, используют gpu в качестве ресурсов для высоких вычислительных потребностей.
Отрисовка и визуализация. Приложения, включающие трехмерную отрисовку, обработку изображений или транскодирование видео, часто используют графические процессоры для ускорения процесса отрисовки и включения визуализации в режиме реального времени.
Аналитика больших данных: графические процессоры могут ускорить обработку и анализ данных среди массовых наборов данных.
Рекомендации
Помните, что при использовании бессерверных GPU следует учитывать следующие элементы:
Версия CUDA: бессерверные GPU поддерживают последнюю версию CUDA
Ограничения поддержки:
- Только один контейнер в приложении может одновременно использовать GPU.
- Несколько приложений могут совместно использовать один и тот же профиль рабочей нагрузки GPU, но для каждой из них требуется собственная реплика.
- Многофакторные и дробные реплики GPU не поддерживаются.
- Первый контейнер в приложении получает доступ к GPU.
IP-адреса. Потребления GPU используют один IP-адрес для каждой реплики при настройке интеграции с собственной виртуальной сетью.
Запрос квоты бессерверного GPU
Доступ к этой функции доступен только после того, как у вас есть бессерверная квота GPU. Вы можете отправить запрос на квоту GPU с помощью обращения в службу поддержки клиентов.
Примечание.
Клиенты с корпоративными соглашениями имеют одну квоту GPU T4, включенную по умолчанию.
Поддерживаемые регионы
Бессерверные графические процессоры доступны в предварительной версии в регионах "Западная часть США 3 " и "Восточная Австралия".
Использование бессерверных GPU
При создании приложения-контейнера с помощью портал Azure можно настроить контейнер для использования ресурсов GPU.
На вкладке "Контейнер" процесса создания задайте следующие параметры:
В разделе выделения ресурсов контейнера установите флажок GPU.
Для типа GPU*выберите вариант NVIDIA A100 или NVIDIA T4.
Управление профилем рабочей нагрузки GPU без сервера
Бессерверные GPU выполняются в профилях рабочей нагрузки GPU потребления. Вы управляете профилем рабочей нагрузки GPU потребления таким же образом, как и любой другой профиль рабочей нагрузки. Вы можете управлять профилем рабочей нагрузки с помощью интерфейса командной строки или портал Azure.
Улучшение холодного запуска GPU
Вы можете улучшить холодный запуск в контейнерах с поддержкой GPU, включив потоковую передачу артефактов на Реестр контейнеров Azure.
Примечание.
Чтобы использовать потоковую передачу артефактов, образы контейнеров должны размещаться в Реестр контейнеров Azure.
Чтобы включить потоковую передачу изображений, выполните следующие действия.
Откройте Реестр контейнеров Azure в портал Azure.
Найдите репозитории и выберите репозитории.
Выберите имя репозитория.
В окне репозитория выберите "Пуск потоковой передачи артефактов".
Выберите тег изображения, который требуется выполнить потоковую передачу.
В появившемся окне выберите "Создать артефакт потоковой передачи".
Отправить отзыв
Отправьте проблему в репозиторий GitHub для приложений контейнеров Azure.