Příprava dat pro distribuované trénování

Článek
09/27/2024

Tento článek popisuje metody přípravy dat pro distribuované trénování: Puzzle Streaming a TFRecords.

Streamování mozaiky (doporučeno)

Puzzle Streaming je opensourcová knihovna pro načítání dat, která umožňuje efektivní streamování velkých datových sad z cloudového úložiště. Tato knihovna exceluje při zpracování velkých datových sad, které se nevejdou do paměti, protože je speciálně navržená pro více uzlů distribuované trénování velkých modelů. Mosaic Streaming nabízí bezproblémovou integraci s PyTorchem a ekosystémem MosaicML. Tento případ použití ilustruje následující článek:

Načtení dat pomocí streamingu mosaic

TFRecord

Jako zdroj dat pro distribuované hluboké učení můžete použít také formát TFRecord. Formát TFRecord je jednoduchý binární formát orientovaný na záznamy, který mnoho aplikací TensorFlow používá pro trénovací data.

tf.data.TFRecordDataset je datová sada TensorFlow, která se skládá ze záznamů ze souborů TFRecords. Další podrobnosti o tom, jak využívat data TFRecord, naleznete v příručce TensorFlow Využívající data TFRecord.

Následující články popisují a ilustrují doporučené způsoby uložení dat do souborů TFRecord a načtení souborů TFRecord:

Uložení datových rámců Apache Sparku jako souborů TFRecord

Sdílet prostřednictvím

Příprava dat pro distribuované trénování

Streamování mozaiky (doporučeno)

TFRecord

Váš názor

Další materiály