共用方式為


適用於 PyTorch 的 Azure 容器 (ACPT)

適用於 PyTorch 的 Azure 容器是輕量型的獨立環境,其中包含必要的元件,可在 Azure 機器學習 上有效執行大型模型的優化定型。 根據預設,Azure 機器學習 策展環境可在使用者的工作區中使用,並由使用最新版 Azure 機器學習 SDK 的快取 Docker 映像支援。 這有助於降低準備成本,並加快部署時間。 ACPT 可用來使用 Azure 上的 PyTorch 快速開始使用各種深度學習工作。

注意

使用 Python SDKCLI 或 Azure 機器學習 Studio 取得環境及其相依性的完整清單。 如需詳細資訊,請參閱 環境一文

為何應該使用 ACPT?

  • 彈性:依目前方式搭配預安裝套件使用,或建置在策展環境之上。
  • 易於使用:所有元件都會針對數十個Microsoft工作負載進行安裝及驗證,以降低設定成本並加速價值。
  • 效率:避免不必要的映射建置,而且只有映像/容器中可存取的必要相依性。
  • 優化定型架構:在大型工作負載上設定、開發及加速 PyTorch 模型,並改善定型和部署成功率。
  • 最新堆棧:存取最新相容的Ubuntu、Python、PyTorch、CUDA/RocM等版本。
  • 最新的定型優化技術:使用 ONNX 運行時間DeepSpeedMSCCL 等等。
  • 與 Azure 機器學習 整合:在 Azure Machine Learning 工作室 或使用 SDK 追蹤 PyTorch 實驗。 Azure 客戶支援也會減少訓練和部署延遲。
  • DSVM 的可用性:映射也可作為 資料科學虛擬機器 (DSVM)使用。 若要深入瞭解 資料科學虛擬機器,請參閱 DSVM 概觀檔

重要

若要檢視有關策展環境套件和版本的詳細資訊,請流覽 Azure 機器學習 Studio 中的 [環境] 索引標籤。

適用於 PyTorch 的 Azure 容器支援的組態 (ACPT)

描述:適用於 PyTorch 的 Azure 策展環境是我們最新的 PyTorch 策劃環境。 其已針對大型分散式深度學習工作負載進行優化,並預先封裝了加速訓練的最佳Microsoft技術(例如 Onnx Runtime Training (ORT)、DeepSpeed、MSCCL 等。

不支援下列設定:

環境名稱 OS GPU 版本 Python 版本 PyTorch 版本 ORT 訓練版本 DeepSpeed 版本 torch-ort 版本 星雲版本
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

提供其他套件,例如 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics,以支援所有訓練需求。

若要深入瞭解,請參閱 建立自定義 ACPT 策展環境

支援

支持環境的版本更新,包括所參考的基底映像,會每隔兩周發行一次,以解決不超過 30 天的弱點。 根據使用方式,某些環境可能已被取代(隱藏在產品中,但可使用),以支援更常見的機器學習案例。