Compartir vía


Guardado de DataFrames de Apache Spark como archivos TFRecord

Este artículo muestra cómo usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos con TensorFlow.

El formato de archivo TFRecord es un formato binario sencillo orientado a registros para datos de entrenamiento de ML. La clase tf.data.TFRecordDataset permite transmitir el contenido de uno o varios archivos TFRecord como parte de una canalización de entrada.

Usar biblioteca spark-tensorflow-connector

Puede usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord.

spark-tensorflow-connector es una biblioteca del ecosistema de TensorFlow que permite la conversión entre DataFrames de Spark y archivos TFRecord (un formato popular de almacenamiento de datos para TensorFlow). Con spark-tensorflow-connector, puede usar DataFrame API de Spark para leer archivos TFRecord en DataFrames y escribir DataFrames como archivos TFRecord.

Nota:

La biblioteca spark-tensorflow-connector está incluida en Databricks Runtime para Machine Learning. Para usar spark-tensorflow-connector en Versiones y compatibilidad de las notas de la versión de Databricks Runtime, debe instalar la biblioteca desde Maven. Consulte Paquete de Maven o Spark para obtener más información.

Ejemplo: carga de datos desde archivos TFRecord con TensorFlow

En el cuaderno de ejemplo se muestra cómo guardar datos de DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos para el entrenamiento de ML.

Puede cargar los archivos TFRecord mediante la clase tf.data.TFRecordDataset. Consulte Leer un archivo TFRecord de TensorFlow para obtener más información.

Preparar los datos de imagen para el cuaderno de DL distribuido

Obtener el cuaderno