Entrenamiento distribuido con el distribuidor DeepSpeed
En este artículo se describe cómo realizar el entrenamiento distribuido en modelos de PyTorch ML mediante el distribuidor DeepSpeed.
El distribuidor DeepSpeed se basa en TorchDistributor y es una solución recomendada para los clientes con modelos que requieren una mayor potencia de proceso, pero están limitadas por restricciones de memoria.
La biblioteca DeepSpeed es una biblioteca de código abierto desarrollada por Microsoft y está disponible en Databricks Runtime 14.0 ML o superior. Ofrece un uso de memoria optimizado, una sobrecarga de comunicación reducida y paralelismo de canalización avanzado que permiten el escalado de modelos y procedimientos de entrenamiento que, de lo contrario, serían inalcanzables en el hardware estándar.
A continuación se muestran escenarios de ejemplo en los que el distribuidor DeepSpeed es beneficioso:
- Memoria de GPU baja.
- Entrenamiento de modelos grandes.
- Datos de entrada grandes, como durante la inferencia por lotes.
Cuaderno de ejemplo para el entrenamiento distribuido con DeepSpeed
En el ejemplo de cuaderno siguiente se muestra cómo realizar el entrenamiento distribuido con el distribuidor DeepSpeed.