Sdílet prostřednictvím


Distribuované trénování s distributorem DeepSpeed

Tento článek popisuje, jak provádět distribuované trénování na modelech PyTorch ML pomocí distributora DeepSpeed .

Distributor DeepSpeed je postaven na torchDistributor a je doporučeným řešením pro zákazníky s modely, které vyžadují vyšší výpočetní výkon, ale jsou omezené omezeními paměti.

Knihovna DeepSpeed je opensourcová knihovna vyvinutá Microsoftem a je k dispozici v Databricks Runtime 14.0 ML nebo vyšší. Nabízí optimalizované využití paměti, menší komunikační režii a pokročilý paralelismus kanálů, které umožňují škálování modelů a trénovacích postupů, které by jinak byly nedostupné na standardním hardwaru.

Následuje příklad scénářů, ve kterých je distributor DeepSpeed přínosný:

  • Nedostatek paměti GPU.
  • Trénování velkých modelů
  • Velká vstupní data, například během dávkového odvozování.

Ukázkový poznámkový blok pro distribuované trénování pomocí DeepSpeed

Následující příklad poznámkového bloku ukazuje, jak provádět distribuované trénování s distributorem DeepSpeed.

Vyladění chatu Llama 2 7B s poznámkovým blokem DeepspeedTorchDistributor

Získat poznámkový blok