Контейнер Azure для PyTorch (ACPT)
Контейнер Azure для PyTorch — это упрощенная автономная среда, которая включает необходимые компоненты для эффективного запуска оптимизированного обучения для больших моделей на Машинное обучение Azure. По умолчанию Машинное обучение Azure курируемые среды доступны в рабочей области пользователя и поддерживаются кэшированными образами Docker, используюющими последнюю версию пакета SDK Машинное обучение Azure. Это помогает сократить затраты на подготовку и ускорить развертывание. ACPT можно использовать для быстрого начала работы с различными задачами глубокого обучения с помощью PyTorch в Azure.
Примечание.
Используйте пакет SDK Python, CLI или Студию машинного обучения Azure, чтобы получить полный список сред и их зависимостей. Дополнительные сведения см. в статье по средам.
Почему следует использовать ACPT?
- Гибкость. Использование как есть с предварительно установленными пакетами или сборкой на основе курированной среды.
- Простота использования. Все компоненты устанавливаются и проверяются на основе десятков рабочих нагрузок Майкрософт, чтобы сократить затраты на настройку и ускорить время, чтобы получить значение.
- Эффективность. Избегайте ненужных сборок образов и имеют только необходимые зависимости, доступные в образе или контейнере.
- Оптимизированная платформа обучения: настройка, разработка и ускорение моделей PyTorch на больших рабочих нагрузках, а также повышение скорости обучения и успешного развертывания.
- Актуальный стек: доступ к последним совместимым версиям Ubuntu, Python, PyTorch, CUDA/RocM и т. д.
- Последние технологии оптимизации обучения: использование среды выполнения ONNX, DeepSpeed, MSCCL и многое другое.
- Интеграция с Машинное обучение Azure. Отслеживание экспериментов PyTorch по Студия машинного обучения Azure или использованию пакета SDK. Поддержка клиентов Azure также снижает задержку обучения и развертывания.
- Доступность как DSVM: образ также доступен как Виртуальная машина для обработки и анализа данных (DSVM). Дополнительные сведения о Виртуальная машина для обработки и анализа данных см. в обзорной документации по DSVM.
Внимание
Чтобы просмотреть дополнительные сведения о пакетах и версиях курируемых сред, перейдите на вкладку "Среды" Студии машинного обучения Azure.
Поддерживаемые конфигурации для контейнера Azure для PyTorch (ACPT)
Описание: Курируемая Azure среда для PyTorch — это наша последняя курируемая среда PyTorch. Он оптимизирован для больших распределенных рабочих нагрузок глубокого обучения и поставляется предварительно упакован с лучшими технологиями Майкрософт для ускорения обучения (например, Onnx Runtime Training (ORT), DeepSpeed, MSCCL и т. д.).
Поддерживаются следующие конфигурации:
Имя среды | ОС | Версия GPU | Версия Python | Версия PyTorch | Версия ORT-training | Версия DeepSpeed | Версия torch-ort | Версия Nebula |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
Другие пакеты, такие как fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision и факелметрики предоставляются для поддержки всех потребностей обучения.
Дополнительные сведения см. в статье "Создание пользовательских курируемых сред ACPT".
Поддержка
Обновления версий для поддерживаемых сред, в том числе базовых образов, на которые они ссылаются, выпускаются каждые две недели для устранения уязвимостей не старше 30 дней. В зависимости от использования некоторые среды могут рассматриваться как нерекомендуемые (скрыты от продукта, но используются) для поддержки более распространенных сценариев машинного обучения.