Freigeben über


Azure Container für PyTorch (ACPT)

Azure Container für PyTorch ist eine einfache, eigenständige Umgebung, die erforderliche Komponenten enthält, um ein optimiertes Training für große Modelle in Azure Machine Learning effektiv auszuführen. Die kuratierten Umgebungen von Azure Machine Learning sind standardmäßig im Arbeitsbereich des Benutzers verfügbar und werden von zwischengespeicherten Docker-Images unterstützt, welche die aktuelle Version des Azure Machine Learning-SDK verwenden. Dies hilft dabei, die Vorbereitungskosten zu reduzieren und die Bereitstellungszeit zu verkürzen. ACPT kann verwendet werden, um schnell mit verschiedenen Deep Learning-Aufgaben mit PyTorch in Azure zu beginnen.

Hinweis

Verwenden Sie das Python SDK, die CLI oder Azure Machine Learning Studio, um die komplette Liste an Umgebungen und deren Abhängigkeiten zu erhalten. Weitere Informationen finden Sie im Artikel zu Umgebungen.

Warum sollte ich ACPT verwenden?

  • Flexibilität: Verwenden Sie as-is mit vorinstallierten Paketen oder bauen Sie auf der kuratierten Umgebung auf.
  • Benutzerfreundlichkeit: Alle Komponenten werden mit Dutzenden von Microsoft-Workloads installiert und überprüft, um die Einrichtungskosten zu reduzieren und die Zeit für den Wert zu beschleunigen.
  • Effizienz: Vermeiden Sie unnötige Imagebuilds und verfügen nur über erforderliche Abhängigkeiten, die direkt im Image/Container zugänglich sind.
  • Optimiertes Schulungsframework: Einrichten, Entwickeln und Beschleunigen von PyTorch-Modellen für große Workloads und Verbessern der Erfolgsquote von Schulungen und Bereitstellungen.
  • Aktueller Stapel: Greifen Sie auf die neuesten kompatiblen Versionen von Ubuntu, Python, PyTorch, CUDA/RocM usw. zu.
  • Neueste Technologien zur Optimierung von Schulungen: Nutzen Sie ONNX Runtime, DeepSpeed, MSCCL und vieles mehr.
  • Integration in Azure Machine Learning: Verfolgen Sie Ihre PyTorch-Experimente im Azure Machine Learning Studio oder verwenden Sie das SDK. Der Azure-Kundensupport reduziert auch die Schulungs- und Bereitstellungslatenz.
  • Verfügbarkeit als DSVM: Das Image ist auch als Data Science Virtual Machine (DSVM) verfügbar. Weitere Informationen zu Data Science Virtual Machines finden Sie in der DSVM-Übersichtsdokumentation.

Wichtig

Weitere Informationen zu zusammengestellten Umgebungspaketen und -versionen finden Sie auf der Registerkarte „Umgebungen“ im Azure Machine Learning Studio.

Unterstützte Konfigurationen für Azure Container für PyTorch (ACPT)

Beschreibung: Die kuratierte Azure-Umgebung für PyTorch ist unsere neueste kuratierte PyTorch-Umgebung. Es ist für große, verteilte Deep Learning-Workloads optimiert und wird mit den besten Microsoft-Technologien für beschleunigte Schulungen (z. B. Onnx Runtime Training (ORT), DeepSpeed, MSCCL usw. vorgepackt.

Die folgenden Konfigurationen werden unterstützt:

Umgebungsname Betriebssystem GPU-Version Python-Version PyTorch-Version ORT-Trainingsversion DeepSpeed-Version Torch-ORT-Version Nebula-Version
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Andere Pakete wie fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision und fackelmetrisch werden bereitgestellt, um alle Schulungsanforderungen zu unterstützen.

Weitere Informationen finden Sie unter Erstellen benutzerdefinierter kuratierter ACPT-Umgebungen.

Support

Versionsupdates für unterstützte Umgebungen, einschließlich der Basisimages, auf die verwiesen wird, werden alle zwei Wochen veröffentlicht, um Sicherheitslücken zu schließen, die nicht älter als 30 Tage sind. Basierend auf der Nutzung sind einige Umgebungen möglicherweise veraltet (aus dem Produkt ausgeblendet, aber verwendbar), um gängige Machine Learning-Szenarios zu unterstützen.