Distribuované trénování s distributorem DeepSpeed
Tento článek popisuje, jak provádět distribuované trénování na modelech PyTorch ML pomocí distributora DeepSpeed .
Distributor DeepSpeed je postaven na torchDistributor a je doporučeným řešením pro zákazníky s modely, které vyžadují vyšší výpočetní výkon, ale jsou omezené omezeními paměti.
Knihovna DeepSpeed je opensourcová knihovna vyvinutá Microsoftem a je k dispozici v Databricks Runtime 14.0 ML nebo vyšší. Nabízí optimalizované využití paměti, menší komunikační režii a pokročilý paralelismus kanálů, které umožňují škálování modelů a trénovacích postupů, které by jinak byly nedostupné na standardním hardwaru.
Následuje příklad scénářů, ve kterých je distributor DeepSpeed přínosný:
- Nedostatek paměti GPU.
- Trénování velkých modelů
- Velká vstupní data, například během dávkového odvozování.
Ukázkový poznámkový blok pro distribuované trénování pomocí DeepSpeed
Následující příklad poznámkového bloku ukazuje, jak provádět distribuované trénování s distributorem DeepSpeed.