Compartilhar via


Treinamento distribuído com o distribuidor DeepSpeed

Este artigo descreve como executar treinamento distribuído em modelos de ML do PyTorch usando o distribuidor DeepSpeed.

O distribuidor DeepSpeed é criado com base no TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de software livre desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ou superior. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo avançado de pipeline que permitem o dimensionamento de modelos e procedimentos de treinamento que, de outra forma, seriam inatingíveis no hardware padrão.

Veja a seguir cenários de exemplo em que o distribuidor DeepSpeed é benéfico:

  • Memória de GPU baixa.
  • Treinamento de modelo grande.
  • Dados de entrada grandes, como durante a inferência em lote.

Notebook de exemplo para treinamento distribuído com DeepSpeed

O exemplo de notebook a seguir demonstra como executar o treinamento distribuído com o distribuidor DeepSpeed.

Ajustar o Chat do Llama 2 7B com o notebook DeepspeedTorchDistributor

Obter notebook