분산 학습용 데이터 준비
이 문서에서는 분산 학습을 위해 데이터를 준비하는 메서드인 Mosaic 스트리밍과 TFRecords를 설명합니다.
Mosaic 스트리밍(권장)
Mosaic 스트리밍은 클라우드 스토리지에서 대규모 데이터 세트를 효율적으로 스트리밍할 수 있는 오픈 소스 데이터 로드 라이브러리입니다. 이 라이브러리는 대규모 모델의 다중 노드 분산 학습을 위해 특별히 설계되었으므로 메모리에 맞지 않는 대규모 데이터 세트를 처리하는 데 탁월합니다. Mosaic 스트리밍은 PyTorch 및 MosaicML 에코시스템과 원활하게 통합됩니다. 다음 문서에서는 이 사용 사례를 설명합니다.
TFRecord
분산 딥 러닝을 위한 데이터 원본으로 TFRecord 형식을 사용할 수도 있습니다. TFRecord 형식은 많은 TensorFlow 애플리케이션이 학습 데이터에 사용하는 간단한 레코드 지향 이진 형식입니다.
tf.data.TFRecordDataset은 TFRecords 파일의 레코드로 구성된 TensorFlow 데이터 세트입니다. TFRecord 데이터를 사용하는 방법에 대한 자세한 내용은 TensorFlow 가이드 TFRecord 데이터 사용을 참조하세요.
다음 문서에서는 데이터를 TFRecord 파일에 저장하고 TFRecord 파일을 로드하는 권장 방법을 설명하고 설명합니다.