Azure Container for PyTorch (ACPT)
Azure Container for PyTorch är en enkel, fristående miljö som innehåller nödvändiga komponenter för att effektivt köra optimerad träning för stora modeller i Azure Machine Learning. Azure Machine Learning-kurerade miljöer är tillgängliga på användarens arbetsyta som standard och backas upp av cachelagrade Docker-avbildningar som använder den senaste versionen av Azure Machine Learning SDK. Det bidrar till att minska förberedelsekostnaderna och snabbare distributionstid. ACPT kan användas för att snabbt komma igång med olika djupinlärningsuppgifter med PyTorch i Azure.
Kommentar
Använd Python SDK, CLI eller Azure Machine Learning Studio för att få en fullständig lista över miljöer och deras beroenden. Mer information finns i artikeln miljöer.
Varför ska jag använda ACPT?
- Flexibilitet: Använd som det är med förinstallerade paket eller skapa ovanpå den kurerade miljön.
- Användarvänlighet: Alla komponenter installeras och verifieras mot dussintals Microsoft-arbetsbelastningar för att minska installationskostnaderna och påskynda tiden till värde.
- Effektivitet: Undvik onödiga avbildningsversioner och har bara nödvändiga beroenden som är tillgängliga direkt i avbildningen/containern.
- Optimerat träningsramverk: Konfigurera, utveckla och påskynda PyTorch-modeller för stora arbetsbelastningar och förbättra tränings- och distributionsframgången.
- Uppdaterad stack: Få åtkomst till de senaste kompatibla versionerna av Ubuntu, Python, PyTorch, CUDA/RocM osv.
- De senaste teknikerna för träningsoptimering: Använd ONNX Runtime , DeepSpeed, MSCCL med mera.
- Integrering med Azure Machine Learning: Spåra dina PyTorch-experiment på Azure Machine Learning-studio eller med hjälp av SDK. Azure-kundsupport minskar också svarstiden för utbildning och distribution.
- Tillgänglighet som DSVM: Avbildningen är också tillgänglig som en Datavetenskap virtuell dator (DSVM). Mer information om Datavetenskap virtuella datorer finns i översiktsdokumentationen för DSVM.
Viktigt!
Mer information om utvalda miljöpaket och versioner finns på fliken Miljöer i Azure Machine Learning Studio.
Konfigurationer som stöds för Azure Container for PyTorch (ACPT)
Beskrivning: Azure Curated Environment for PyTorch är vår senaste PyTorch-kuraterade miljö. Den är optimerad för stora, distribuerade arbetsbelastningar för djupinlärning och levereras i förväg med det bästa av Microsofts tekniker för accelererad träning (t.ex. Onnx Runtime Training (ORT), DeepSpeed, MSCCL osv.).
Följande konfigurationer stöds:
Miljönamn | OS | GPU-version | Python-version | PyTorch-version | ORT-träningsversion | DeepSpeed-version | torch-ort Version | Nebulosaversion |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
Andra paket som fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision och torchmetrics tillhandahålls för att stödja alla träningsbehov.
Mer information finns i Skapa anpassade ACPT-kurerade miljöer.
Support
Versionsuppdateringar för miljöer som stöds, inklusive de basavbildningar som de refererar till, släpps varannan vecka för att åtgärda säkerhetsrisker som inte är äldre än 30 dagar. Baserat på användning kan vissa miljöer vara inaktuella (dolda från produkten men användbara) för att stödja vanligare maskininlärningsscenarier.