你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于 PyTorch 的 Azure 容器(ACPT)
适用于 PyTorch 的 Azure 容器为轻型独立环境,其中包含在 Azure 机器学习上有效运行大型模型优化训练所需的组件。 默认情况下,Azure 机器学习 特选环境 在用户的工作区中可用,并且由使用 Azure 机器学习 SDK 最新版本的缓存 Docker 映像提供支持。 它有助于降低准备成本并缩短部署时间。 ACPT 可用于在 Azure 上使用 PyTorch 快速开始各种深度学习任务。
注意
使用 Python SDK、CLI 或 Azure 机器学习工作室获取环境及其依赖项的完整列表。 有关详细信息,请参阅环境一文。
为什么应使用 ACPT?
- 灵活性:按原样使用预安装的包或基于特选环境进行生成。
- 易于使用:所有组件都针对数十个 Microsoft 工作负载进行安装和验证,以降低设置成本并加快实现价值的时间。
- 效率:避免不必要的映像生成,只使用映像/容器中可直接访问的所需依赖项。
- 优化的训练框架:在大型工作负载上设置、开发和加速 PyTorch 模型,并提高训练和部署成功率。
- 最新堆栈:访问最新兼容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
- 最新的训练优化技术:利用 ONNX 运行时、DeepSpeed、MSCCL 等。
- 与 Azure 机器学习集成:通过 Azure 机器学习工作室或使用 SDK 跟踪 PyTorch 试验。 Azure 客户支持还减少了培训和部署延迟。
- 作为 DSVM 的可用性:映像也可用作 Data Science Virtual Machine (DSVM)。 要详细了解 Data Science Virtual Machine,请参阅 DSVM 概述文档。
重要
若要查看有关策展环境包和版本的更多信息,请访问 Azure 机器学习工作室中的“环境”选项卡。
适用于 PyTorch 的 Azure 容器(ACPT)受支持的配置
说明:适用于 PyTorch 的 Azure 特选环境是最新的 PyTorch 特选环境。 它针对大型分布式深度学习工作负载进行了优化,并预打包了用于加速训练的Microsoft技术(例如 Onnx Runtime Training(ORT)、DeepSpeed、MSCCL 等)。
支持以下配置:
环境名称 | OS | GPU 版本 | Python 版本 | PyTorch 版本 | ORT 训练版本 | DeepSpeed 版本 | torch-ort 版本 | Nebula 版本 |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
另外还提供了其他包以支持所有训练需求,如 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision、torchmetrics。
要了解详细信息,请参阅 创建自定义的 ACPT 特选环境。
支持
受支持环境的版本更新(包括它们引用的基础映像)每两周发布一次,以解决不超过 30 天的漏洞。 根据使用情况,可能会弃用某些环境(对产品隐藏但可用)以支持更常见的机器学习场景。