Treinamento distribuído com o distribuidor DeepSpeed
Este artigo descreve como executar treinamento distribuído em modelos de ML do PyTorch usando o distribuidor DeepSpeed.
O distribuidor DeepSpeed é criado com base no TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória.
A biblioteca DeepSpeed é uma biblioteca de software livre desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ou superior. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo avançado de pipeline que permitem o dimensionamento de modelos e procedimentos de treinamento que, de outra forma, seriam inatingíveis no hardware padrão.
Veja a seguir cenários de exemplo em que o distribuidor DeepSpeed é benéfico:
- Memória de GPU baixa.
- Treinamento de modelo grande.
- Dados de entrada grandes, como durante a inferência em lote.
Notebook de exemplo para treinamento distribuído com DeepSpeed
O exemplo de notebook a seguir demonstra como executar o treinamento distribuído com o distribuidor DeepSpeed.