Preparar dados para treinamento distribuído

Artigo
09/30/2024

Este artigo descreve os métodos para preparar dados para treinamento distribuído: Mosaic Streaming e TFRecords.

Mosaic Streaming (Recomendado)

Mosaic Streaming é uma biblioteca de carregamento de dados de código aberto que permite o streaming eficiente de grandes conjuntos de dados a partir do armazenamento em nuvem. Essa biblioteca é excelente para lidar com conjuntos de dados maciços que não cabem na memória, pois foi projetada especificamente para treinamento distribuído e com vários nós de modelos grandes. O Mosaic Streaming oferece integração perfeita com o PyTorch e o ecossistema MosaicML. O artigo a seguir ilustra esse caso de uso:

Carregar dados usando o Mosaic Streaming

TFRecord

Você também pode usar o formato TFRecord como a fonte de dados para aprendizado profundo distribuído. O formato TFRecord é um formato binário simples e orientado a registros que muitos aplicativos do TensorFlow usam para os dados de treinamento.

tf.data.TFRecordDataset é o conjunto de dados do TensorFlow, composto por registros de arquivos do TFRecords. Para obter mais detalhes sobre como consumir dados do TFRecord, consulte o guia do TensorFlow Consumindo dados do TFRecord.

Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord:

Salvar DataFrames do Apache Spark como arquivos TFRecord

Compartilhar via

Preparar dados para treinamento distribuído

Mosaic Streaming (Recomendado)

TFRecord

Comentários

Recursos adicionais