Apache Spark DataFrames opslaan als TFRecord-bestanden
In dit artikel leest u hoe u spark-tensorflow-connector gebruikt om Apache Spark DataFrames op te slaan in TFRecord-bestanden en TFRecord te laden met TensorFlow.
De TFRecord-bestandsindeling is een eenvoudige, op records gerichte binaire indeling voor ML-trainingsgegevens. Met de klasse tf.data.TFRecordDataset kunt u de inhoud van een of meer TFRecord-bestanden streamen als onderdeel van een invoerpijplijn.
Bibliotheek gebruiken spark-tensorflow-connector
U kunt spark-tensorflow-connector gebruiken om Apache Spark DataFrames op te slaan in TFRecord-bestanden.
spark-tensorflow-connector
is een bibliotheek in het TensorFlow-ecosysteem dat conversie mogelijk maakt tussen Spark DataFrames en TFRecords (een populaire indeling voor het opslaan van gegevens voor TensorFlow). Met spark-tensorflow-connector kunt u Spark DataFrame-API's gebruiken om TFRecords-bestanden in DataFrames te lezen en DataFrames als TFRecords te schrijven.
Notitie
De spark-tensorflow-connector
bibliotheek is opgenomen in Databricks Runtime voor Machine Learning. Als u de releaseversies en compatibiliteit van Databricks Runtime wilt gebruiken spark-tensorflow-connector
, moet u de bibliotheek installeren vanuit Maven. Zie het Maven- of Spark-pakket voor meer informatie.
Voorbeeld: Gegevens laden uit TFRecord-bestanden met TensorFlow
In het voorbeeldnotebook ziet u hoe u gegevens van Apache Spark DataFrames opslaat in TFRecord-bestanden en TFRecord-bestanden laadt voor ML-training.
U kunt de TFRecord-bestanden laden met behulp van de tf.data.TFRecordDataset
klasse. Zie Een TFRecord-bestand lezen van TensorFlow voor meer informatie.