Trenowanie rozproszone za pomocą dystrybutora DeepSpeed
W tym artykule opisano sposób wykonywania trenowania rozproszonego na modelach uczenia maszynowego PyTorch przy użyciu dystrybutora DeepSpeed.
Dystrybutor DeepSpeed jest oparty na torchDistributor i jest zalecanym rozwiązaniem dla klientów z modelami wymagającymi wyższej mocy obliczeniowej, ale są ograniczone przez ograniczenia pamięci.
Biblioteka DeepSpeed to biblioteka typu open source opracowana przez firmę Microsoft i jest dostępna w środowisku Databricks Runtime 14.0 ML lub nowszym. Oferuje zoptymalizowane użycie pamięci, mniejsze obciążenie komunikacji i zaawansowaną równoległość potoków, które umożliwiają skalowanie modeli i procedur szkoleniowych, które w przeciwnym razie byłyby nie do dostosowania na standardowym sprzęcie.
Poniżej przedstawiono przykładowe scenariusze, where dystrybutor DeepSpeed jest korzystny:
- Mała ilość pamięci procesora GPU.
- Trenowanie dużych modeli.
- Duże dane wejściowe, takie jak podczas wnioskowania wsadowego.
Przykładowy notes do trenowania rozproszonego za pomocą technologii DeepSpeed
W poniższym przykładzie notesu pokazano, jak przeprowadzić trenowanie rozproszone za pomocą dystrybutora DeepSpeed.