Treinamento distribuído com o distribuidor DeepSpeed
Este artigo descreve como realizar treinamento distribuído em modelos PyTorch ML usando o distribuidor DeepSpeed.
O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória.
A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ou superior. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite o dimensionamento de modelos e procedimentos de treinamento que, de outra forma, seriam inatingíveis em hardware padrão.
A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:
- Memória GPU baixa.
- Treinamento de modelo grande.
- Dados de entrada grandes, como durante a inferência em lote.
Exemplo de notebook para treinamento distribuído com o DeepSpeed
O exemplo de bloco de anotações a seguir demonstra como executar treinamento distribuído com o distribuidor DeepSpeed.