Partager via


Azure Container pour PyTorch (ACPT)

Azure Container pour PyTorch est un environnement léger et autonome qui comprend les composants nécessaires pour exécuter efficacement un apprentissage optimisé pour des modèles volumineux sur Azure Machine Learning. Les environnements organisés d’Azure Machine Learning sont disponibles dans l’espace de travail par défaut de l’utilisateur et sont soutenus par des images Docker mises en cache qui utilisent la dernière version du Kit de développement logiciel (SDK) Azure Machine Learning. Il permet de réduire les coûts de préparation et d’accélérer le temps de déploiement. Azure Container pour PyTorch (ACPT) peut être utilisé pour démarrer rapidement diverses tâches Deep Learning avec PyTorch sur Azure.

Notes

Utilisez le SDK Python, la CLI ou Azure Machine Learning Studio pour obtenir la liste complète des environnements et de leurs dépendances. Pour plus d’informations, consultez l’article sur les environnements.

Pourquoi dois-je utiliser ACPT ?

  • Flexibilité : Utilisez en l’utilisation comme c’est le cas avec des packages préinstallés ou générez-en plus de l’environnement organisé.
  • Facilité d’utilisation : tous les composants sont installés et validés par rapport à des dizaines de charges de travail Microsoft pour réduire les coûts d’installation et accélérer la valeur.
  • Efficacité : Évitez les builds d’images inutiles et n’avez que les dépendances requises qui sont accessibles directement dans l’image/conteneur.
  • Infrastructure de formation optimisée : configurez, développez et accélérez les modèles PyTorch sur de grandes charges de travail, et améliorez le taux de réussite de l’entraînement et du déploiement.
  • Pile à jour : Accédez aux dernières versions compatibles d’Ubuntu, Python, PyTorch, CUDA/RocM, etc.
  • Dernières technologies d’optimisation de l’entraînement : Utilisez ONNX Runtime , DeepSpeed, MSCCL, etc.
  • Intégration à Azure Machine Learning : effectuez le suivi de vos expériences PyTorch sur Azure Machine Learning Studio ou à l’aide du Kit de développement logiciel (SDK). Le support client Azure réduit également la latence de formation et de déploiement.
  • Disponibilité en tant que machine virtuelle DSVM : l’image est également disponible en tant que machine virtuelle Science des données (DSVM). Pour en savoir plus sur les Data Science Virtual Machines, consultez la Documentation de vue d’ensemble sur DSVM.

Important

Pour consulter plus d’informations sur les packages et versions des environnements organisés, accédez à l’onglet Environnements dans le studio Azure Machine Learning.

Configurations prises en charge pour Azure Container pour PyTorch (ACPT)

Description : Azure Curated Environment for PyTorch est notre dernier environnement organisé PyTorch. Il est optimisé pour les charges de travail d’apprentissage profond volumineuses distribuées et est préconfiguré avec les meilleures technologies Microsoft pour l’entraînement accéléré (par exemple, Onnx Runtime Training (ORT), DeepSpeed, MSCCL, etc.).

Les configurations suivantes sont prises en charge :

Nom de l’environnement Système d''exploitation Version du GPU Version Python Version de PyTorch Version d’ORT Training Version de DeepSpeed Version de torch-ort Version de Nebula
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

D’autres packages tels que fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision et torchmetrics sont fournis pour prendre en charge tous les besoins de formation.

Pour plus d’informations, consultez Créer des environnements ACPT organisés.

Support

Des mises à jour de version pour les environnements pris en charge, y compris les images de base auxquelles ils font référence, sont publiées toutes les deux semaines pour répondre aux vulnérabilités de moins de 30 jours. Selon l’utilisation, certains environnements peuvent être abandonnés (cachés du produit mais utilisables) pour prendre en charge des scénarios de Machine Learning plus courants.