Guardado de DataFrames de Apache Spark como archivos TFRecord
Este artículo muestra cómo usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos con TensorFlow.
El formato de archivo TFRecord es un formato binario sencillo orientado a registros para datos de entrenamiento de ML. La clase tf.data.TFRecordDataset permite transmitir el contenido de uno o varios archivos TFRecord como parte de una canalización de entrada.
Usar biblioteca spark-tensorflow-connector
Puede usar spark-tensorflow-connector para guardar DataFrames de Apache Spark en archivos TFRecord.
spark-tensorflow-connector
es una biblioteca del ecosistema de TensorFlow que permite la conversión entre DataFrames de Spark y archivos TFRecord (un formato popular de almacenamiento de datos para TensorFlow). Con spark-tensorflow-connector, puede usar DataFrame API de Spark para leer archivos TFRecord en DataFrames y escribir DataFrames como archivos TFRecord.
Nota:
La biblioteca spark-tensorflow-connector
está incluida en Databricks Runtime para Machine Learning. Para usar spark-tensorflow-connector
en Versiones y compatibilidad de las notas de la versión de Databricks Runtime, debe instalar la biblioteca desde Maven. Consulte Paquete de Maven o Spark para obtener más información.
Ejemplo: carga de datos desde archivos TFRecord con TensorFlow
En el cuaderno de ejemplo se muestra cómo guardar datos de DataFrames de Apache Spark en archivos TFRecord y cargar dichos archivos para el entrenamiento de ML.
Puede cargar los archivos TFRecord mediante la clase tf.data.TFRecordDataset
. Consulte [Lectura de un archivo TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) de TensorFlow para obtener más información.