Preparación de datos para el aprendizaje distribuido
En este artículo se describen los métodos para preparar los datos para el entrenamiento distribuido: Mosaic Streaming y TFRecords.
Mosaic Streaming (se recomienda)
Mosaic Streaming es una biblioteca de carga de datos de código abierto que permite un streaming eficaz de grandes conjuntos de datos desde el almacenamiento en la nube. Esta biblioteca destaca en el control de conjuntos de datos masivos que no caben en la memoria, ya que está diseñado específicamente para el entrenamiento distribuido de varios nodos de modelos grandes. Mosaic Streaming ofrece una integración perfecta con PyTorch y el ecosistema MosaicML. En el siguiente artículo se muestra este caso de uso:
TFRecord
También puede usar el formato TFRecord como origen de datos para el aprendizaje profundo distribuido. El formato TFRecord es un formato binario sencillo orientado a registros que muchas aplicaciones de TensorFlow usan para entrenar datos.
tf.data.TFRecordDataset es el conjunto de datos de TensorFlow, que consta de registros de archivos TFRecords. Para obtener más información sobre cómo consumir datos TFRecord, consulte la guía de TensorFlow Consumo de datos TFRecord.
En los artículos siguientes se describen e ilustran las formas recomendadas de guardar los datos en archivos TFRecord y cargar archivos TFRecord: