Sdílet prostřednictvím


Kontejner Azure pro PyTorch (ACPT)

Azure Container for PyTorch je jednoduché samostatné prostředí, které zahrnuje potřebné komponenty pro efektivní spouštění optimalizovaného trénování pro velké modely ve službě Azure Machine Learning. Kurátorovaná prostředí Azure Machine Learning jsou ve výchozím nastavení k dispozici v pracovním prostoru uživatele a jsou podporována imagemi Dockeru uloženými v mezipaměti, které používají nejnovější verzi sady Azure Machine Learning SDK. Pomáhá se snížením nákladů na přípravu a rychlejším časem nasazení. ACPT se dá použít k rychlému zahájení práce s různými úlohami hlubokého učení pomocí PyTorchu v Azure.

Poznámka:

Úplný seznam prostředí a jejich závislostí získáte pomocí sady Python SDK, rozhraní příkazového řádku nebo nástroje Azure Machine Learning Studio. Další informace najdete v článku o prostředích.

Proč mám používat ACPT?

  • Flexibilita: Používejte tak, jak je, s předinstalovanými balíčky nebo sestavte nad kurátorovaným prostředím.
  • Snadné použití: Všechny komponenty se instalují a ověřují vůči desítkám úloh Microsoftu, aby se snížily náklady na nastavení a zrychlily dobu na hodnotu.
  • Efektivita: Vyhněte se zbytečným sestavením imagí a mají pouze požadované závislosti, které jsou přístupné přímo v imagi nebo kontejneru.
  • Optimalizovaná architektura trénování: Nastavení, vývoj a zrychlení modelů PyTorch u velkých úloh a zlepšení úspěšnosti trénování a nasazení
  • Aktuální zásobník: Přístup k nejnovějším kompatibilním verzím Ubuntu, Pythonu, PyTorchu, CUDA/RocM atd.
  • Nejnovější technologie optimalizace trénování: Využijte modul runtime ONNX, DeepSpeed, MSCCL a další.
  • Integrace se službou Azure Machine Learning: Sledování experimentů PyTorch na studio Azure Machine Learning nebo pomocí sady SDK Zákaznická podpora Azure také snižuje latenci trénování a nasazení.
  • Dostupnost jako DSVM: Image je také k dispozici jako virtuální počítač Datová Věda (DSVM). Další informace o Datová Věda Virtual Machines najdete v dokumentaci k přehledu DSVM.

Důležité

Další informace o kurátorovaných balíčcích a verzích prostředí najdete na kartě Prostředí v nástroji Azure Machine Learning Studio.

Podporované konfigurace pro Azure Container for PyTorch (ACPT)

Popis: Kurátorované prostředí Azure pro PyTorch je naše nejnovější kurátorované prostředí PyTorch. Je optimalizovaná pro rozsáhlé a distribuované úlohy hlubokého učení a je předem zabalená s nejlepšími technologiemi Microsoftu pro akcelerované trénování (např. Onnx Runtime Training (ORT), DeepSpeed, MSCCL atd.).

Podporují se tyto konfigurace:

Název prostředí Operační systém Verze GPU Verze Pythonu Verze PyTorch Verze ort-training Verze DeepSpeed verze torch-ort Verze nebula
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3,10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3,10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3,10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3,10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Další balíčky, jako je fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision a torchmetrics jsou k dispozici pro podporu všech potřeb trénování.

Další informace najdete v tématu Vytváření vlastních kurátorovaných prostředí ACPT.

Technická podpora

Aktualizace verzí podporovaných prostředí, včetně základních imagí, na které odkazují, se vydávají každých dva týdny, aby se vyřešily chyby zabezpečení, které nejsou starší než 30 dnů. Na základě využití můžou být některá prostředí zastaralá (skrytá od produktu, ale je použitelná), aby podporovala častější scénáře strojového učení.