Compartir a través de


Azure Container para PyTorch (ACPT)

Azure Container para PyTorch es un entorno ligero e independiente que incluye los componentes necesarios para ejecutar de forma eficaz el entrenamiento optimizado de modelos grandes en Azure Machine Learning. Los entornos mantenidos de Azure Machine Learning están disponibles en el área de trabajo del usuario de manera predeterminada y están respaldados por imágenes de Docker copiadas en caché que usan la versión más reciente del SDK de Azure Machine Learning. Ayuda a reducir los costos de preparación y a conseguir un menor tiempo de implementación. ACPT se puede usar para empezar a trabajar rápidamente con diversas tareas de aprendizaje profundo con PyTorch en Azure.

Nota

Use el SDK de Python, la CLI o Estudio de Azure Machine Learning para obtener la lista más actualizada de entornos y sus dependencias. Para más información, consulte el artículo sobre los entornos.

¿Por qué debo usar ACPT?

  • Flexibilidad: use tal como está con los paquetes preinstalados o compile sobre el entorno mantenido.
  • Facilidad de uso: todos los componentes se instalan y validan con docenas de cargas de trabajo de Microsoft para reducir los costos de instalación y acelerar el tiempo de valor.
  • Eficiencia: evite compilaciones de imágenes innecesarias y solo tenga dependencias necesarias que sean accesibles directamente en la imagen o el contenedor.
  • Marco de entrenamiento optimizado: configure, desarrolle y acelere los modelos de PyTorch en cargas de trabajo de gran tamaño y mejore la tasa de éxito de entrenamiento e implementación.
  • Pila actualizada: acceda a las versiones más recientes compatibles de Ubuntu, Python, PyTorch, CUDA/RocM, etc.
  • Tecnologías de optimización de entrenamiento más recientes: use ONNX Runtime , DeepSpeed, MSCCL, etc.
  • Integración con Azure Machine Learning: realice un seguimiento de los experimentos de PyTorch en Estudio de Azure Machine Learning o mediante el SDK. El soporte técnico al cliente de Azure también reduce la latencia de entrenamiento e implementación.
  • Disponibilidad como DSVM: la imagen también está disponible como una máquina virtual (DSVM) de Ciencia de datos. Para más información sobre Data Science Virtual Machines, consulte la documentación de información general de DSVM.

Importante

Para ver más información sobre las versiones y los paquetes de entorno seleccionados, visite la pestaña Entornos de Azure Machine Learning Studio.

Configuraciones admitidas para Azure Container para PyTorch (ACPT)

Descripción: El entorno mantenido de Azure para PyTorch es nuestro entorno mantenido más reciente de PyTorch. Está optimizado para cargas de trabajo de aprendizaje profundo grandes y distribuidos y viene prepaqueteado con lo mejor de las tecnologías de Microsoft para el entrenamiento acelerado (por ejemplo, Entrenamiento en tiempo de ejecución de Onnx (ORT), DeepSpeed, MSCCL, etc.).

Se admiten las siguientes configuraciones:

Nombre del entorno SO Versión de GPU Versión de Python Versión de PyTorch Versión de ORT Versión de DeepSpeed Versión de torch-ort Versión de Nebula
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Se proporcionan otros paquetes como fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, TorchML, torchvision y torchmetrics para satisfacer todas las necesidades de entrenamiento.

Para obtener más información, consulte Creación de entornos mantenidos de ACPT personalizados.

Soporte técnico

Las actualizaciones de versiones de los entornos admitidos, incluidas las imágenes base a las que hacen referencia, se publican cada dos semanas para solucionar vulnerabilidades con una antigüedad inferior a 30 días. En función del uso, algunos entornos pueden estar en desuso (ocultos del producto pero utilizables) para admitir escenarios de aprendizaje automático más comunes.