DeepSpeed 배포자를 통한 분산 학습
이 문서에서는 DeepSpeed 배포자를 사용하여 PyTorch ML 모델에서 분산 학습을 수행하는 방법을 설명합니다.
DeepSpeed 배포자는 TorchDistributor를 기반으로 하며 더 높은 컴퓨팅 능력을 필요로 하지만 메모리 제약 조건으로 제한되는 모델을 사용하는 고객에게 권장되는 솔루션입니다.
DeepSpeed 라이브러리는 Microsoft에서 개발한 오픈 소스 라이브러리이며 Databricks Runtime 14.0 ML 이상에서 사용할 수 있습니다. 최적화된 메모리 사용량, 통신 오버헤드 감소 및 고급 파이프라인 병렬 처리를 제공하여 표준 하드웨어에서 달성할 수 없는 모델 및 학습 프로시저의 크기를 조정합니다.
다음은 DeepSpeed 배포자에 도움이 되는 예제 시나리오입니다.
- GPU 메모리가 부족합니다.
- 대규모 모델 학습.
- 일괄 처리 유추 중과 같은 입력 데이터가 대량인 경우입니다.
DeepSpeed를 사용하여 분산 학습을 위한 예제 Notebook
다음 Notebook 예제에서는 DeepSpeed 배포자를 사용하여 분산 학습을 수행하는 방법을 보여 줍니다.