Speichern von Apache Spark-DataFrames in TFRecord-Dateien
In diesem Artikel erfahren Sie, wie Sie spark-tensorflow-connector verwenden, um Apache Spark-DataFrames in TFRecord-Dateien zu speichern und TFRecord mit TensorFlow zu laden.
Das TFRecord-Dateiformat ist ein einfaches datensatzorientiertes Binärformat für ML-Trainingsdaten. Mit der Klasse tf.data.TFRecordDataset können Sie den Inhalt einer oder mehrerer TFRecord-Dateien als Teil einer Eingabepipeline streamen.
Verwenden der spark-tensorflow-connector
-Bibliothek
Sie können spark-tensorflow-connector verwenden, um Apache Spark-DataFrames in TFRecord-Dateien zu speichern.
spark-tensorflow-connector
ist eine Bibliothek innerhalb des TensorFlow-Ökosystems, welche die Konvertierung zwischen Spark-DataFrames und TFRecords (einem beliebten Format zum Speichern von Daten für TensorFlow) ermöglicht. Mit spark-tensorflow-connector können Sie Spark-DataFrame-APIs verwenden, um TFRecords-Dateien in DataFrames einzulesen und DataFrames als TFRecords zu schreiben.
Hinweis
Die spark-tensorflow-connector
-Bibliothek ist in Databricks Runtime für Machine Learning enthalten. Um spark-tensorflow-connector
für Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität zu verwenden, müssen Sie die Bibliothek aus Maven installieren. Weitere Informationen finden Sie unter Maven- oder Spark-Paket.
Beispiel: Laden von Daten aus TFRecord-Dateien mit TensorFlow
Im Beispielnotebook wird veranschaulicht, wie Sie Daten aus Apache Spark-DataFrames in TFRecord-Dateien speichern und TFRecord-Dateien für das ML-Training laden.
Sie können die TFRecord-Dateien mithilfe der tf.data.TFRecordDataset
-Klasse laden. Weitere Informationen finden Sie unter Lesen einer TFRecord-Datei aus TensorFlow.