Spara Apache Spark DataFrames som TFRecord-filer
Den här artikeln visar hur du använder spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer och läsa in TFRecord med TensorFlow.
TFRecord-filformatet är ett enkelt postorienterat binärt format för ML-träningsdata. Med klassen tf.data.TFRecordDataset kan du strömma över innehållet i en eller flera TFRecord-filer som en del av en indatapipeline.
Använda spark-tensorflow-connector
bibliotek
Du kan använda spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer.
spark-tensorflow-connector
är ett bibliotek i TensorFlow-ekosystemet som möjliggör konvertering mellan Spark DataFrames och TFRecords (ett populärt format för lagring av data för TensorFlow). Med spark-tensorflow-connector kan du använda Spark DataFrame-API:er för att läsa TFRecords-filer i DataFrames och skriva DataFrames som TFRecords.
Kommentar
Biblioteket spark-tensorflow-connector
ingår i Databricks Runtime for Machine Learning. Om du vill använda spark-tensorflow-connector
versionerna och kompatibiliteten i Databricks Runtime måste du installera biblioteket från Maven. Mer information finns i Maven- eller Spark-paketet .
Exempel: Läsa in data från TFRecord-filer med TensorFlow
Exempelanteckningsboken visar hur du sparar data från Apache Spark DataFrames till TFRecord-filer och läser in TFRecord-filer för ML-träning.
Du kan läsa in TFRecord-filerna med hjälp av tf.data.TFRecordDataset
klassen . Mer information finns i [Läsa en TFRecord-fil](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) från TensorFlow.