Przygotowywanie danych na potrzeby trenowania rozproszonego
W tym artykule opisano metody przygotowywania danych do trenowania rozproszonego: Mozaika Streaming i TFRecords.
Przesyłanie strumieniowe mozaiki (zalecane)
Mozaika Streaming to biblioteka ładowania danych typu open source, która umożliwia wydajne przesyłanie strumieniowe dużych zestawów danych z magazynu w chmurze. Ta biblioteka wyróżnia się w obsłudze ogromnych zestawów danych, które nie mieszczą się w pamięci, ponieważ została ona specjalnie zaprojektowana na potrzeby wielowęźle rozproszonego trenowania dużych modeli. Usługa Mosaic Streaming oferuje bezproblemową integrację z platformą PyTorch i ekosystemem MosaicML. W poniższym artykule przedstawiono ten przypadek użycia:
TFRecord
Możesz również użyć formatu TFRecord jako źródła danych na potrzeby rozproszonego uczenia głębokiego. Format TFRecord to prosty format binarny zorientowany na rekord, którego wiele aplikacji TensorFlow używa do trenowania danych.
tf.data.TFRecordDataset to zestaw danych TensorFlow, który składa się z rekordów z plików TFRecords. Aby uzyskać więcej informacji o sposobie korzystania z danych TFRecord, zobacz tensorFlow guide Consume TFRecord data (Korzystanie z danych TFRecord).
W poniższych artykułach opisano i zilustrowano zalecane sposoby zapisywania danych w plikach TFRecord i ładowania plików TFRecord: