Gedistribueerde training met DeepSpeed-distributeur
In dit artikel wordt beschreven hoe u gedistribueerde training kunt uitvoeren op PyTorch ML-modellen met behulp van de DeepSpeed-distributeur .
De DeepSpeed-distributeur is gebouwd op TorchDistributor en is een aanbevolen oplossing voor klanten met modellen die een hogere rekenkracht vereisen, maar worden beperkt door geheugenbeperkingen.
De DeepSpeed-bibliotheek is een opensource-bibliotheek die is ontwikkeld door Microsoft en is beschikbaar in Databricks Runtime 14.0 ML of hoger. Het biedt geoptimaliseerd geheugengebruik, verminderde communicatieoverhead en geavanceerde pijplijnparallelisme waarmee modellen en trainingsprocedures kunnen worden geschaald die anders onbereikbaar zouden zijn op standaardhardware.
Hier volgen voorbeeldscenario's waarin de DeepSpeed-distributeur nuttig is:
- Weinig GPU-geheugen.
- Grote modeltraining.
- Grote invoergegevens, zoals tijdens batchdeductie.
Voorbeeldnotitieblok voor gedistribueerde training met DeepSpeed
In het volgende notebookvoorbeeld ziet u hoe u gedistribueerde training kunt uitvoeren met de DeepSpeed-distributeur.