Treinamento distribuído com o distribuidor DeepSpeed

Artigo
02/05/2025

Este artigo descreve como realizar treinamento distribuído em modelos PyTorch ML usando o distribuidor DeepSpeed.

O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ou superior. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite o dimensionamento de modelos e procedimentos de treinamento que, de outra forma, seriam inatingíveis em hardware padrão.

A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:

Memória GPU baixa.
Treinamento de modelo grande.
Dados de entrada grandes, como durante a inferência em lote.

Exemplo de notebook para treinamento distribuído com o DeepSpeed

O exemplo de bloco de anotações a seguir demonstra como executar treinamento distribuído com o distribuidor DeepSpeed.

Fine-tune Llama 2 7B Chat com `DeepspeedTorchDistributor` notebook

Obter o bloco de notas

Partilhar via

Treinamento distribuído com o distribuidor DeepSpeed

Exemplo de notebook para treinamento distribuído com o DeepSpeed

Fine-tune Llama 2 7B Chat com `DeepspeedTorchDistributor` notebook

Comentários

Recursos adicionais

Partilhar via

Treinamento distribuído com o distribuidor DeepSpeed

Exemplo de notebook para treinamento distribuído com o DeepSpeed

Fine-tune Llama 2 7B Chat com DeepspeedTorchDistributor notebook

Comentários

Recursos adicionais

Fine-tune Llama 2 7B Chat com `DeepspeedTorchDistributor` notebook