Поделиться через


Распределенное обучение с распространителем DeepSpeed

В этой статье описывается, как выполнять распределенное обучение для моделей машинного обучения PyTorch с помощью дистрибьютора DeepSpeed.

Распространитель DeepSpeed построен на основе TorchDistributor и является рекомендуемым решением для клиентов с моделями, которые требуют более высокой вычислительной мощности, но ограничены ограничениями памяти.

Библиотека DeepSpeed — это библиотека с открытым исходным кодом, разработанная корпорацией Майкрософт и доступна в Databricks Runtime 14.0 ML или более поздней версии. Он предлагает оптимизированное использование памяти, снижение затрат на обмен данными и расширенный параллелизм конвейеров, который позволяет масштабировать модели и процедуры обучения, которые в противном случае будут недоступны на стандартном оборудовании.

Ниже приведены примеры сценариев, в которых распространитель DeepSpeed является полезным:

  • Низкая память GPU.
  • Обучение больших моделей.
  • Большие входные данные, например во время пакетного вывода.

Пример записной книжки для распределенного обучения с помощью DeepSpeed

В следующем примере записной книжки показано, как выполнять распределенное обучение с распространителем DeepSpeed.

Точно настроенная Ллома 2 7B Чат с DeepspeedTorchDistributor записной книжкой

Получи ноутбук