Поделиться через


Контейнер Azure для PyTorch (ACPT)

Контейнер Azure для PyTorch — это упрощенная автономная среда, которая включает необходимые компоненты для эффективного запуска оптимизированного обучения для больших моделей на Машинное обучение Azure. По умолчанию Машинное обучение Azure курируемые среды доступны в рабочей области пользователя и поддерживаются кэшированными образами Docker, используюющими последнюю версию пакета SDK Машинное обучение Azure. Это помогает сократить затраты на подготовку и ускорить развертывание. ACPT можно использовать для быстрого начала работы с различными задачами глубокого обучения с помощью PyTorch в Azure.

Примечание.

Используйте пакет SDK Python, CLI или Студию машинного обучения Azure, чтобы получить полный список сред и их зависимостей. Дополнительные сведения см. в статье по средам.

Почему следует использовать ACPT?

  • Гибкость. Использование как есть с предварительно установленными пакетами или сборкой на основе курированной среды.
  • Простота использования. Все компоненты устанавливаются и проверяются на основе десятков рабочих нагрузок Майкрософт, чтобы сократить затраты на настройку и ускорить время, чтобы получить значение.
  • Эффективность. Избегайте ненужных сборок образов и имеют только необходимые зависимости, доступные в образе или контейнере.
  • Оптимизированная платформа обучения: настройка, разработка и ускорение моделей PyTorch на больших рабочих нагрузках, а также повышение скорости обучения и успешного развертывания.
  • Актуальный стек: доступ к последним совместимым версиям Ubuntu, Python, PyTorch, CUDA/RocM и т. д.
  • Последние технологии оптимизации обучения: использование среды выполнения ONNX, DeepSpeed, MSCCL и многое другое.
  • Интеграция с Машинное обучение Azure. Отслеживание экспериментов PyTorch по Студия машинного обучения Azure или использованию пакета SDK. Поддержка клиентов Azure также снижает задержку обучения и развертывания.
  • Доступность как DSVM: образ также доступен как Виртуальная машина для обработки и анализа данных (DSVM). Дополнительные сведения о Виртуальная машина для обработки и анализа данных см. в обзорной документации по DSVM.

Внимание

Чтобы просмотреть дополнительные сведения о пакетах и версиях курируемых сред, перейдите на вкладку "Среды" Студии машинного обучения Azure.

Поддерживаемые конфигурации для контейнера Azure для PyTorch (ACPT)

Описание: Курируемая Azure среда для PyTorch — это наша последняя курируемая среда PyTorch. Он оптимизирован для больших распределенных рабочих нагрузок глубокого обучения и поставляется предварительно упакован с лучшими технологиями Майкрософт для ускорения обучения (например, Onnx Runtime Training (ORT), DeepSpeed, MSCCL и т. д.).

Поддерживаются следующие конфигурации:

Имя среды ОС Версия GPU Версия Python Версия PyTorch Версия ORT-training Версия DeepSpeed Версия torch-ort Версия Nebula
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3,10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3,10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3,10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3,10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Другие пакеты, такие как fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision и факелметрики предоставляются для поддержки всех потребностей обучения.

Дополнительные сведения см. в статье "Создание пользовательских курируемых сред ACPT".

Поддержка

Обновления версий для поддерживаемых сред, в том числе базовых образов, на которые они ссылаются, выпускаются каждые две недели для устранения уязвимостей не старше 30 дней. В зависимости от использования некоторые среды могут рассматриваться как нерекомендуемые (скрыты от продукта, но используются) для поддержки более распространенных сценариев машинного обучения.