你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

适用于 PyTorch 的 Azure 容器(ACPT)

适用于 PyTorch 的 Azure 容器为轻型独立环境,其中包含在 Azure 机器学习上有效运行大型模型优化训练所需的组件。 默认情况下,Azure 机器学习 特选环境 在用户的工作区中可用,并且由使用 Azure 机器学习 SDK 最新版本的缓存 Docker 映像提供支持。 它有助于降低准备成本并缩短部署时间。 ACPT 可用于在 Azure 上使用 PyTorch 快速开始各种深度学习任务。

注意

使用 Python SDKCLI 或 Azure 机器学习工作室获取环境及其依赖项的完整列表。 有关详细信息,请参阅环境一文。

为什么应使用 ACPT?

  • 灵活性:按原样使用预安装的包或基于特选环境进行生成。
  • 易于使用:所有组件都针对数十个 Microsoft 工作负载进行安装和验证,以降低设置成本并加快实现价值的时间。
  • 效率:避免不必要的映像生成,只使用映像/容器中可直接访问的所需依赖项。
  • 优化的训练框架:在大型工作负载上设置、开发和加速 PyTorch 模型,并提高训练和部署成功率。
  • 最新堆栈:访问最新兼容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
  • 最新的训练优化技术:利用 ONNX 运行时DeepSpeedMSCCL 等。
  • 与 Azure 机器学习集成:通过 Azure 机器学习工作室或使用 SDK 跟踪 PyTorch 试验。 Azure 客户支持还减少了培训和部署延迟。
  • 作为 DSVM 的可用性:映像也可用作 Data Science Virtual Machine (DSVM)。 要详细了解 Data Science Virtual Machine,请参阅 DSVM 概述文档

重要

若要查看有关策展环境包和版本的更多信息,请访问 Azure 机器学习工作室中的“环境”选项卡。

适用于 PyTorch 的 Azure 容器(ACPT)受支持的配置

说明:适用于 PyTorch 的 Azure 特选环境是最新的 PyTorch 特选环境。 它针对大型分布式深度学习工作负载进行了优化,并预打包了用于加速训练的Microsoft技术(例如 Onnx Runtime Training(ORT)、DeepSpeed、MSCCL 等)。

支持以下配置:

环境名称 OS GPU 版本 Python 版本 PyTorch 版本 ORT 训练版本 DeepSpeed 版本 torch-ort 版本 Nebula 版本
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

另外还提供了其他包以支持所有训练需求,如 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision、torchmetrics。

要了解详细信息,请参阅 创建自定义的 ACPT 特选环境

支持

受支持环境的版本更新(包括它们引用的基础映像)每两周发布一次,以解决不超过 30 天的漏洞。 根据使用情况,可能会弃用某些环境(对产品隐藏但可用)以支持更常见的机器学习场景。