Spara Apache Spark DataFrames som TFRecord-filer

Artikel
12/21/2024

Den här artikeln visar hur du använder spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer och läsa in TFRecord med TensorFlow.

TFRecord-filformatet är ett enkelt postorienterat binärt format för ML-träningsdata. Med klassen tf.data.TFRecordDataset kan du strömma över innehållet i en eller flera TFRecord-filer som en del av en indatapipeline.

Använda `spark-tensorflow-connector` bibliotek

Du kan använda spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer.

spark-tensorflow-connectorär ett bibliotek i TensorFlow-ekosystemet som möjliggör konvertering mellan Spark DataFrames och TFRecords (ett populärt format för lagring av data för TensorFlow). Med spark-tensorflow-connector kan du använda Spark DataFrame-API:er för att läsa TFRecords-filer i DataFrames och skriva DataFrames som TFRecords.

Kommentar

Biblioteket spark-tensorflow-connector ingår i Databricks Runtime for Machine Learning. Om du vill använda spark-tensorflow-connectorversionerna och kompatibiliteten i Databricks Runtime måste du installera biblioteket från Maven. Mer information finns i Maven- eller Spark-paketet .

Exempel: Läsa in data från TFRecord-filer med TensorFlow

Exempelanteckningsboken visar hur du sparar data från Apache Spark DataFrames till TFRecord-filer och läser in TFRecord-filer för ML-träning.

Du kan läsa in TFRecord-filerna med hjälp av tf.data.TFRecordDataset klassen . Se Läs en TFRecord-fil från TensorFlow för mer information.

Förbereda avbildningsdata för distribuerad DL-notebook-fil

Get anteckningsbok

Dela via

Spara Apache Spark DataFrames som TFRecord-filer

Använda `spark-tensorflow-connector` bibliotek

Exempel: Läsa in data från TFRecord-filer med TensorFlow

Förbereda avbildningsdata för distribuerad DL-notebook-fil

Feedback

Ytterligare resurser

Dela via

Spara Apache Spark DataFrames som TFRecord-filer

Använda spark-tensorflow-connector bibliotek

Exempel: Läsa in data från TFRecord-filer med TensorFlow

Förbereda avbildningsdata för distribuerad DL-notebook-fil

Feedback

Ytterligare resurser

Använda `spark-tensorflow-connector` bibliotek