為分散式訓練準備資料
本文說明準備分散式訓練資料的方法:Mosaic Streaming 和 TFRecords。
Mosaic Streaming (建議)
Mosaic Streaming 是開放原始碼資料載入儲存體,可讓您從雲端儲存體有效率地串流大型資料集。 此媒體櫃擅長處理不適合記憶體的大型資料集,因為它特別針對大型模型的多節點分散式訓練而設計。 Mosaic Streaming 提供與 PyTorch 和 MosaicML 生態系統的無縫整合。 下列文章說明此使用案例:
TFRecord
也可以使用 TFRecord 格式作為分散式深度學習的資料來源。 TFRecord 格式是簡單的記錄導向二進位格式,許多 TensorFlow 應用程式都用於訓練資料。
tf.data.TFRecordDataset 是 TensorFlow 資料集,其中包含來自 TFRecords 檔案的記錄。 如需如何使用 TFRecord 資料的詳細資訊,請參閱 TensorFlow 指南使用 TFRecord 資料。
下列文章介紹並說明將資料儲存至 TFRecord 檔案並載入 TFRecord 檔案的建議方式: