다음을 통해 공유


TFRecord 파일로 Apache Spark DataFrames 저장

이 설명서에서는 spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장하고 TensorFlow를 사용하여 TFRecord를 로드하는 방법을 보여줍니다.

TFRecord 파일 형식은 ML 학습 데이터에 대한 간단한 레코드 지향 이진 형식입니다. tf.data.TFRecordDataset 클래스를 사용하면 입력 파이프라인의 일부로 하나 이상의 TFRecord 파일의 콘텐츠를 스트리밍할 수 있습니다.

spark-tensorflow-connector라이브러리 사용

spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장할 수 있습니다.

spark-tensorflow-connector은 Spark DataFrames와 TFRecords(TensorFlow에서 데이터를 저장하는 데 널리 사용되는 형식) 간의 변환을 가능하게 하는 TensorFlow 생태계 내의 라이브러리입니다. spark-tensorflow-connector를 사용하면 Spark DataFrame API를 사용하여 TFRecords 파일을 DataFrames로 읽고 DataFrames를 TFRecords로 쓸 수 있습니다.

참고 항목

spark-tensorflow-connector 라이브러리는 기계 학습을 위한 Databricks Runtime에 포함되어 있습니다. Databricks 런타임 릴리스 정보 버전 및 호환성에서 spark-tensorflow-connector을 사용하려면 Maven에서 라이브러리를 설치해야 합니다. 자세한 내용은 Maven 또는 Spark 패키지를 참조하세요.

예제: TensorFlow를 사용하여 TFRecord 파일에서 데이터 로드

이 예제 Notebook에서는 Apache Spark DataFrames에서 TFRecord 파일로 데이터를 저장하고 ML 학습을 위해 TFRecord 파일을 로드하는 방법을 보여 줍니다.

tf.data.TFRecordDataset 클래스를 사용하여 TFRecord 파일을 로드할 수 있습니다. 자세한 내용은 TensorFlow에서 [TFRecord 파일 읽기](https://www.tensorflow.org/ 자습서/load_data/tfrecord#reading_a_tfrecord_file)를 참조하세요.

분산 DL Notebook에 대한 이미지 데이터 준비

Notebook 가져오기