Azure Container for PyTorch (ACPT)
Azure Container for PyTorch to lekkie, autonomiczne środowisko, które zawiera potrzebne składniki do efektywnego uruchamiania zoptymalizowanego trenowania dla dużych modeli w usłudze Azure Machine Learning. Środowiska nadzorowane usługi Azure Machine Learning są domyślnie dostępne w obszarze roboczym użytkownika i są wspierane przez buforowane obrazy platformy Docker korzystające z najnowszej wersji zestawu Azure Machine Learning SDK. Pomaga to zmniejszyć koszty przygotowania i krótszy czas wdrażania. Usługa ACPT umożliwia szybkie rozpoczęcie pracy z różnymi zadaniami uczenia głębokiego za pomocą rozwiązania PyTorch na platformie Azure.
Uwaga
Użyj zestawu SDK języka Python, interfejsu wiersza polecenia lub usługi Azure Machine Learning Studio, aby uzyskać pełną listę środowisk i ich zależności. Aby uzyskać więcej informacji, zobacz artykuł dotyczący środowisk.
Dlaczego warto używać ACPT?
- Elastyczność: używaj wstępnie zainstalowanych pakietów lub kompiluj na podstawie wyselekcjonowanego środowiska.
- Łatwość użycia: wszystkie składniki są instalowane i weryfikowane pod kątem kilkudziesięciu obciążeń firmy Microsoft, aby zmniejszyć koszty instalacji i skrócić czas na wartość.
- Wydajność: Unikaj niepotrzebnych kompilacji obrazów i mają tylko wymagane zależności, które są dostępne bezpośrednio w obrazie/kontenerze.
- Zoptymalizowana struktura szkoleniowa: konfigurowanie, opracowywanie i przyspieszanie modeli PyTorch na dużych obciążeniach oraz poprawianie współczynnika sukcesów trenowania i wdrażania.
- Aktualny stos: uzyskaj dostęp do najnowszych zgodnych wersji systemu Ubuntu, Python, PyTorch, CUDA/RocM itp.
- Najnowsze technologie optymalizacji szkoleń: korzystaj ze środowiska uruchomieniowego ONNX, DeepSpeed, MSCCL i nie tylko.
- Integracja z usługą Azure Machine Learning: śledzenie eksperymentów PyTorch w usłudze Azure Machine Learning Studio lub korzystanie z zestawu SDK. Obsługa klienta platformy Azure zmniejsza również opóźnienia trenowania i wdrażania.
- Dostępność jako maszyna DSVM: obraz jest również dostępny jako maszyna wirtualna Nauka o danych (DSVM). Aby dowiedzieć się więcej na temat maszyn wirtualnych Nauka o danych, zobacz dokumentację dotyczącą przeglądu maszyn wirtualnych DSVM.
Ważne
Aby wyświetlić więcej informacji na temat wyselekcjonowanych pakietów i wersji środowiska, odwiedź kartę Środowiska w usłudze Azure Machine Learning Studio.
Obsługiwane konfiguracje dla usługi Azure Container for PyTorch (ACPT)
Opis: Środowisko nadzorowane platformy Azure dla platformy PyTorch to nasze najnowsze środowisko wyselekcjonowane PyTorch. Jest ona zoptymalizowana pod kątem dużych, rozproszonych obciążeń uczenia głębokiego i jest wstępnie pakowana z najlepszymi technologiami firmy Microsoft do przyspieszonego trenowania (np. onnx Runtime Training (ORT), DeepSpeed, MSCCL itp.).
Obsługiwane są następujące konfiguracje:
Nazwa środowiska | System operacyjny | Wersja procesora GPU | Wersja języka Python | Wersja narzędzia PyTorch | Wersja trenowania ORT | Wersja DeepSpeed | wersja torch-ort | Wersja mgławicy |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
Inne pakiety, takie jak fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision i torchmetrics są dostarczane do obsługi wszystkich potrzeb szkoleniowych.
Aby dowiedzieć się więcej, zobacz Tworzenie niestandardowych środowisk wyselekcjonowanych ACPT.
Pomoc techniczna
Aktualizacje wersji obsługiwanych środowisk, w tym obrazy podstawowe, do których się odwołują, są wydawane co dwa tygodnie, aby rozwiązać luki w zabezpieczeniach nie starsze niż 30 dni. Na podstawie użycia niektóre środowiska mogą być przestarzałe (ukryte od produktu, ale użyteczne) w celu obsługi bardziej typowych scenariuszy uczenia maszynowego.