Preparar dados para treinamento distribuído
Este artigo descreve os métodos para preparar dados para treinamento distribuído: Mosaic Streaming e TFRecords.
Mosaic Streaming (Recomendado)
Mosaic Streaming é uma biblioteca de carregamento de dados de código aberto que permite o streaming eficiente de grandes conjuntos de dados a partir do armazenamento em nuvem. Essa biblioteca é excelente para lidar com conjuntos de dados maciços que não cabem na memória, pois foi projetada especificamente para treinamento distribuído e com vários nós de modelos grandes. O Mosaic Streaming oferece integração perfeita com o PyTorch e o ecossistema MosaicML. O artigo a seguir ilustra esse caso de uso:
TFRecord
Você também pode usar o formato TFRecord como a fonte de dados para aprendizado profundo distribuído. O formato TFRecord é um formato binário simples e orientado a registros que muitos aplicativos do TensorFlow usam para os dados de treinamento.
tf.data.TFRecordDataset é o conjunto de dados do TensorFlow, composto por registros de arquivos do TFRecords. Para obter mais detalhes sobre como consumir dados do TFRecord, consulte o guia do TensorFlow Consumindo dados do TFRecord.
Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord: