Поделиться через


Подготовка данных для распределенного обучения

В этой статье описываются методы подготовки данных для распределенного обучения: потоковая передача мозаики и TFRecords.

Потоковая передача мозаики — это библиотека загрузки данных с открытым исходным кодом, которая обеспечивает эффективную потоковую передачу больших наборов данных из облачного хранилища. Эта библиотека отлично подходит для обработки больших наборов данных, которые не соответствуют памяти, так как она специально предназначена для многоузлового распределенного обучения больших моделей. Потоковая передача мозаики обеспечивает простую интеграцию с PyTorch и экосистемой MosaicML. Следующая статья иллюстрирует этот вариант использования:

TFRecord

В качестве источника данных для распределенного глубокого обучения можно также использовать формат TFRecord. TFRecord — это простой двоичный формат, предназначенный для работы с записями, который используется многими приложениями TensorFlow для обучающих данных.

tf.data.TFRecordDataset — это набор данных TensorFlow, который содержит записи из файлов TFRecords. Дополнительные сведения о том, как использовать данные TFRecord, см. в статье Использование данных TFRecord руководства TensorFlow.

В следующих статьях описываются и иллюстрируются рекомендуемые способы сохранения данных в файлах TFRecord и загрузки файлов TFRecord: