Сохранение кадров данных Apache Spark в виде файлов TFRecord
В этой статье показано, как использовать соединитель spark-tensorflow-connector для сохранения кадров данных Apache Spark в файлы TFRecord и загрузки TFRecord с TensorFlow.
Формат файла TFRecord — это простой, ориентированный на записи двоичный формат для данных Машинного обучения. Класс tf.data.TFRecordDataset позволяет выполнять потоковую передачу содержимого одного или нескольких файлов TFRecord в составе входного конвейера.
Использование spark-tensorflow-connector
библиотеки
Вы можете использовать соединитель spark-tensorflow-connector для сохранения Apache Spark DataFrames в файлах TFRecord.
spark-tensorflow-connector
— это библиотека в экосистеме TensorFlow, которая обеспечивает преобразование между кадрами данных Spark и TFRecords (популярным форматом хранения данных для TensorFlow). С помощью соединителя spark-tensorflow-connector можно использовать API-интерфейсы Spark DataFrame для чтения файлов TFRecords в DataFrames и записи DataFrames как TFRecords.
Примечание.
Библиотека spark-tensorflow-connector
включена в Databricks Runtime для Машинное обучение. Чтобы использовать spark-tensorflow-connector
примечания о выпуске Databricks Runtime версии и совместимость, необходимо установить библиотеку из Maven. Дополнительные сведения см. в разделе Пакет Maven или Spark.
Пример. Загрузка данных из файлов TFRecord с помощью TensorFlow
В примере записной книжки показано, как сохранять данные из Кадров данных Apache Spark в файлы TFRecord и загружать файлы TFRecord для обучения машинного обучения.
Файлы TFRecord можно загрузить с помощью класса tf.data.TFRecordDataset
. Дополнительные сведения см. в статье [Чтение файла TFRecord](https://www.tensorflow.org/ учебники/load_data/tfrecord#reading_a_tfrecord_file) из TensorFlow.