次の方法で共有


DeepSpeed ディストリビューターによる分散トレーニング

この記事では、DeepSpeed ディストリビューターを使用して PyTorch ML モデルによる分散トレーニングを実行する方法について説明します。

DeepSpeed ディストリビューターは TorchDistributor をベースに構築されており、高い計算処理能力を必要とするが、メモリに制約されるモデルをご利用のお客様にお勧めのソリューションです。

DeepSpeed ライブラリは、Microsoft によって開発されたオープンソース ライブラリであり、Databricks Runtime 14.0 ML 以降で使用できます。 最適化されたメモリ使用、削減された通信オーバーヘッド、高度なパイプライン並列化といった仕様になっており、標準的なハードウェアでは得られない、モデルとトレーニング プロシージャのスケーリングを可能にします。

DeepSpeed ディストリビューターが有益となるシナリオの例を次に示します。

  • GPU メモリが少ない。
  • モデル トレーニングの規模が大きい。
  • バッチ推論中など、入力データが大量になる。

DeepSpeed を使用した分散トレーニングのノートブックの例

次のノートブックの例では、DeepSpeed ディストリビューターで分散トレーニングを実行する方法を示します。

DeepspeedTorchDistributor ノートブックで Llama 2 7B チャットを微調整する

ノートブックを入手