Preparar os dados para a preparação distribuída

Artigo
09/27/2024

Este artigo descreve os métodos para preparar dados para treinamento distribuído: Mosaic Streaming e TFRecords.

Mosaic Streaming (Recomendado)

O Mosaic Streaming é uma biblioteca de carregamento de dados de código aberto que permite o streaming eficiente de grandes conjuntos de dados a partir do armazenamento em nuvem. Esta biblioteca destaca-se no tratamento de conjuntos de dados massivos que não cabem na memória, uma vez que foi especificamente concebida para treino distribuído de vários nós de modelos grandes. O Mosaic Streaming oferece integração perfeita com o PyTorch e o ecossistema MosaicML. O artigo a seguir ilustra esse caso de uso:

Carregar dados usando o Mosaic Streaming

TFRecord

Você também pode usar o formato TFRecord como fonte de dados para aprendizado profundo distribuído. O formato TFRecord é um formato binário simples orientado a registros que muitos aplicativos TensorFlow usam para dados de treinamento.

tf.data.TFRecordDataset é o conjunto de dados TensorFlow, que é composto por registros de arquivos TFRecords. Para obter mais detalhes sobre como consumir dados TFRecord, consulte o guia TensorFlow Consumindo dados TFRecord.

Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord:

Salve o Apache Spark DataFrames como arquivos TFRecord

Partilhar via

Preparar os dados para a preparação distribuída

Mosaic Streaming (Recomendado)

TFRecord

Comentários

Recursos adicionais