Delen via


Gegevens voorbereiden voor gedistribueerde training

In dit artikel worden de methoden beschreven voor het voorbereiden van gegevens voor gedistribueerde training: Mosaic Streaming en TFRecords.

Mosaic Streaming is een opensource-bibliotheek voor het laden van gegevens waarmee grote gegevenssets efficiënt kunnen worden gestreamd vanuit cloudopslag. Deze bibliotheek excelleert bij het verwerken van enorme gegevenssets die niet in het geheugen passen, omdat deze speciaal is ontworpen voor gedistribueerde training met meerdere knooppunten van grote modellen. Mosaic Streaming biedt naadloze integratie met PyTorch en het MosaicML-ecosysteem. In het volgende artikel wordt deze use-case geïllustreerd:

TFRecord

U kunt de TFRecord-indeling ook gebruiken als gegevensbron voor gedistribueerde deep learning. TFRecord-indeling is een eenvoudige, op records gerichte binaire indeling die veel TensorFlow-toepassingen gebruiken voor trainingsgegevens.

tf.data.TFRecordDataset is de TensorFlow-gegevensset, die bestaat uit records uit TFRecords-bestanden. Zie de TensorFlow-handleiding TFRecord-gegevens gebruiken voor meer informatie over het gebruik van TFRecord-gegevens.

In de volgende artikelen worden de aanbevolen manieren beschreven en geïllustreerd om uw gegevens op te slaan in TFRecord-bestanden en TFRecord-bestanden te laden: