Distribuerad utbildning med DeepSpeed-distributör
Den här artikeln beskriver hur du utför distribuerad träning på PyTorch ML-modeller med hjälp av DeepSpeed-distributören .
DeepSpeed-distributören bygger på TorchDistributor och är en rekommenderad lösning för kunder med modeller som kräver högre beräkningskraft, men som begränsas av minnesbegränsningar.
DeepSpeed-biblioteket är ett bibliotek med öppen källkod som utvecklats av Microsoft och är tillgängligt i Databricks Runtime 14.0 ML eller senare. Den erbjuder optimerad minnesanvändning, minskad kommunikationsbelastning och avancerad pipelineparallellitet som möjliggör skalning av modeller och träningsprocedurer som annars skulle vara ouppnåeliga på standardmaskinvara.
Följande är exempelscenarier where DeepSpeed-distributören är fördelaktig:
- Lågt GPU-minne.
- Stor modellträning.
- Stora indata, till exempel vid batchinferens.
Exempel på notebook-fil för distribuerad träning med DeepSpeed
Följande notebook-exempel visar hur du utför distribuerad träning med DeepSpeed-distributören.