Распределенное обучение с распространителем DeepSpeed
В этой статье описывается, как выполнять распределенное обучение для моделей машинного обучения PyTorch с помощью дистрибьютора DeepSpeed.
Распространитель DeepSpeed построен на основе TorchDistributor и является рекомендуемым решением для клиентов с моделями, которые требуют более высокой вычислительной мощности, но ограничены ограничениями памяти.
Библиотека DeepSpeed — это библиотека с открытым исходным кодом, разработанная корпорацией Майкрософт и доступна в Databricks Runtime 14.0 ML или более поздней версии. Он предлагает оптимизированное использование памяти, снижение затрат на обмен данными и расширенный параллелизм конвейеров, который позволяет масштабировать модели и процедуры обучения, которые в противном случае будут недоступны на стандартном оборудовании.
Ниже приведены примеры сценариев, в которых распространитель DeepSpeed является полезным:
- Низкая память GPU.
- Обучение больших моделей.
- Большие входные данные, например во время пакетного вывода.
Пример записной книжки для распределенного обучения с помощью DeepSpeed
В следующем примере записной книжки показано, как выполнять распределенное обучение с распространителем DeepSpeed.