Partilhar via


Treinamento distribuído com o distribuidor DeepSpeed

Este artigo descreve como realizar treinamento distribuído em modelos PyTorch ML usando o distribuidor DeepSpeed.

O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ou superior. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite o dimensionamento de modelos e procedimentos de treinamento que, de outra forma, seriam inatingíveis em hardware padrão.

A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:

  • Memória GPU baixa.
  • Treinamento de modelo grande.
  • Dados de entrada grandes, como durante a inferência em lote.

Exemplo de notebook para treinamento distribuído com o DeepSpeed

O exemplo de bloco de anotações a seguir demonstra como executar treinamento distribuído com o distribuidor DeepSpeed.

Fine-tune Llama 2 7B Chat com DeepspeedTorchDistributor notebook

Obter o bloco de notas