Udostępnij za pośrednictwem


Trenowanie rozproszone za pomocą dystrybutora DeepSpeed

W tym artykule opisano sposób wykonywania trenowania rozproszonego na modelach uczenia maszynowego PyTorch przy użyciu dystrybutora DeepSpeed.

Dystrybutor DeepSpeed jest oparty na torchDistributor i jest zalecanym rozwiązaniem dla klientów z modelami wymagającymi wyższej mocy obliczeniowej, ale są ograniczone przez ograniczenia pamięci.

Biblioteka DeepSpeed to biblioteka typu open source opracowana przez firmę Microsoft i jest dostępna w środowisku Databricks Runtime 14.0 ML lub nowszym. Oferuje zoptymalizowane użycie pamięci, mniejsze obciążenie komunikacji i zaawansowaną równoległość potoków, które umożliwiają skalowanie modeli i procedur szkoleniowych, które w przeciwnym razie byłyby nie do dostosowania na standardowym sprzęcie.

Poniżej przedstawiono przykładowe scenariusze, where dystrybutor DeepSpeed jest korzystny:

  • Mała ilość pamięci procesora GPU.
  • Trenowanie dużych modeli.
  • Duże dane wejściowe, takie jak podczas wnioskowania wsadowego.

Przykładowy notes do trenowania rozproszonego za pomocą technologii DeepSpeed

W poniższym przykładzie notesu pokazano, jak przeprowadzić trenowanie rozproszone za pomocą dystrybutora DeepSpeed.

Dostrojenie czatu Llama 2 7B z notesem DeepspeedTorchDistributor

Get notatnik