DeepSpeed ディストリビューターによる分散トレーニング
この記事では、DeepSpeed ディストリビューターを使用して PyTorch ML モデルによる分散トレーニングを実行する方法について説明します。
DeepSpeed ディストリビューターは TorchDistributor をベースに構築されており、高い計算処理能力を必要とするが、メモリに制約されるモデルをご利用のお客様にお勧めのソリューションです。
DeepSpeed ライブラリは、Microsoft によって開発されたオープンソース ライブラリであり、Databricks Runtime 14.0 ML 以降で使用できます。 最適化されたメモリ使用、削減された通信オーバーヘッド、高度なパイプライン並列化といった仕様になっており、標準的なハードウェアでは得られない、モデルとトレーニング プロシージャのスケーリングを可能にします。
DeepSpeed ディストリビューターが有益となるシナリオの例を次に示します。
- GPU メモリが少ない。
- モデル トレーニングの規模が大きい。
- バッチ推論中など、入力データが大量になる。
DeepSpeed を使用した分散トレーニングのノートブックの例
次のノートブックの例では、DeepSpeed ディストリビューターで分散トレーニングを実行する方法を示します。