適用於 PyTorch 的 Azure 容器 (ACPT)
適用於 PyTorch 的 Azure 容器是輕量型的獨立環境,其中包含必要的元件,可在 Azure 機器學習 上有效執行大型模型的優化定型。 根據預設,Azure 機器學習 策展環境可在使用者的工作區中使用,並由使用最新版 Azure 機器學習 SDK 的快取 Docker 映像支援。 這有助於降低準備成本,並加快部署時間。 ACPT 可用來使用 Azure 上的 PyTorch 快速開始使用各種深度學習工作。
注意
使用 Python SDK、CLI 或 Azure 機器學習 Studio 取得環境及其相依性的完整清單。 如需詳細資訊,請參閱 環境一文。
為何應該使用 ACPT?
- 彈性:依目前方式搭配預安裝套件使用,或建置在策展環境之上。
- 易於使用:所有元件都會針對數十個Microsoft工作負載進行安裝及驗證,以降低設定成本並加速價值。
- 效率:避免不必要的映射建置,而且只有映像/容器中可存取的必要相依性。
- 優化定型架構:在大型工作負載上設定、開發及加速 PyTorch 模型,並改善定型和部署成功率。
- 最新堆棧:存取最新相容的Ubuntu、Python、PyTorch、CUDA/RocM等版本。
- 最新的定型優化技術:使用 ONNX 運行時間 、 DeepSpeed、 MSCCL 等等。
- 與 Azure 機器學習 整合:在 Azure Machine Learning 工作室 或使用 SDK 追蹤 PyTorch 實驗。 Azure 客戶支援也會減少訓練和部署延遲。
- DSVM 的可用性:映射也可作為 資料科學虛擬機器 (DSVM)使用。 若要深入瞭解 資料科學虛擬機器,請參閱 DSVM 概觀檔。
重要
若要檢視有關策展環境套件和版本的詳細資訊,請流覽 Azure 機器學習 Studio 中的 [環境] 索引標籤。
適用於 PyTorch 的 Azure 容器支援的組態 (ACPT)
描述:適用於 PyTorch 的 Azure 策展環境是我們最新的 PyTorch 策劃環境。 其已針對大型分散式深度學習工作負載進行優化,並預先封裝了加速訓練的最佳Microsoft技術(例如 Onnx Runtime Training (ORT)、DeepSpeed、MSCCL 等。
不支援下列設定:
環境名稱 | OS | GPU 版本 | Python 版本 | PyTorch 版本 | ORT 訓練版本 | DeepSpeed 版本 | torch-ort 版本 | 星雲版本 |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
提供其他套件,例如 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics,以支援所有訓練需求。
若要深入瞭解,請參閱 建立自定義 ACPT 策展環境。
支援
支持環境的版本更新,包括所參考的基底映像,會每隔兩周發行一次,以解決不超過 30 天的弱點。 根據使用方式,某些環境可能已被取代(隱藏在產品中,但可使用),以支援更常見的機器學習案例。