Příprava dat pro distribuované trénování
Tento článek popisuje metody přípravy dat pro distribuované trénování: Puzzle Streaming a TFRecords.
Streamování mozaiky (doporučeno)
Puzzle Streaming je opensourcová knihovna pro načítání dat, která umožňuje efektivní streamování velkých datových sad z cloudového úložiště. Tato knihovna exceluje při zpracování velkých datových sad, které se nevejdou do paměti, protože je speciálně navržená pro více uzlů distribuované trénování velkých modelů. Mosaic Streaming nabízí bezproblémovou integraci s PyTorchem a ekosystémem MosaicML. Tento případ použití ilustruje následující článek:
TFRecord
Jako zdroj dat pro distribuované hluboké učení můžete použít také formát TFRecord. Formát TFRecord je jednoduchý binární formát orientovaný na záznamy, který mnoho aplikací TensorFlow používá pro trénovací data.
tf.data.TFRecordDataset je datová sada TensorFlow, která se skládá ze záznamů ze souborů TFRecords. Další podrobnosti o tom, jak využívat data TFRecord, naleznete v příručce TensorFlow Využívající data TFRecord.
Následující články popisují a ilustrují doporučené způsoby uložení dat do souborů TFRecord a načtení souborů TFRecord: