Zapisywanie ramek danych platformy Apache Spark jako plików TFRecord
W tym artykule pokazano, jak używać łącznika spark-tensorflow-connector do zapisywania ramek danych platformy Apache Spark w plikach TFRecord i ładowania pliku TFRecord za pomocą biblioteki TensorFlow.
Format pliku TFRecord jest prostym formatem binarnym zorientowanym na rekordy dla danych treningowych uczenia maszynowego. Klasa tf.data.TFRecordDataset umożliwia przesyłanie strumieniowe zawartości co najmniej jednego pliku TFRecord w ramach potoku wejściowego.
Korzystanie z spark-tensorflow-connector
biblioteki
Możesz użyć łącznika spark-tensorflow-connector , aby zapisać ramki danych platformy Apache Spark w plikach TFRecord.
spark-tensorflow-connector
jest biblioteką w ekosystemie TensorFlow, która umożliwia konwersję między ramkami danych platformy Spark i elementami TFRecords (popularnym formatem przechowywania danych dla biblioteki TensorFlow). Za pomocą łącznika spark-tensorflow-connector można użyć interfejsów API ramki danych Spark do odczytywania plików TFRecords do ramek danych i zapisywania ramek danych jako tfRecords.
Uwaga
Biblioteka jest zawarta spark-tensorflow-connector
w środowisku Databricks Runtime na potrzeby uczenia maszynowego. Aby użyć spark-tensorflow-connector
informacji o wersji środowiska Databricks Runtime i zgodności, należy zainstalować bibliotekę z narzędzia Maven. Aby uzyskać szczegółowe informacje, zobacz Pakiet Maven lub Spark.
Przykład: ładowanie danych z plików TFRecord za pomocą biblioteki TensorFlow
W przykładowym notesie pokazano, jak zapisywać dane z ramek danych platformy Apache Spark w plikach TFRecord i ładować pliki TFRecord na potrzeby trenowania uczenia maszynowego.
Pliki TFRecord można załadować przy użyciu tf.data.TFRecordDataset
klasy . Aby uzyskać szczegółowe informacje, zobacz [Odczyt pliku TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) z biblioteki TensorFlow.