共用方式為


將 Apache Spark DataFrame 儲存為 TFRecord 檔案

本文會說明如何使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案,並使用 TensorFlow 載入 TFRecord。

TFRecord 檔案格式是 ML 訓練資料的簡單記錄導向型二進位格式。 tf.data.TFRecordDataset 類別可讓您在輸入管線中串流一或多個 TFRecord 檔案的內容。

使用 spark-tensorflow-connector 程式庫

您可以使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案。

spark-tensorflow-connectorTensorFlow 生態系統中的程式庫,可在 Spark DataFrame 與 TFRecords (一種熱門的 TensorFlow 資料儲存格式) 之間進行轉換。 使用 spark-tensorflow-connector,您可以使用 Spark DataFrame API 將 TFRecords 檔案讀取至 DataFrame,並將 DataFrame 寫入為 TFRecords。

注意

spark-tensorflow-connector 程式庫包括在適用於機器學習的 Databricks Runtime 中。 若要在 spark-tensorflow-connector上使用 ,您需要從 Maven 安裝程式庫。 如需詳細資料,請參閱 Maven 或 Spark 套件

範例:使用 TensorFlow 從 TFRecord 檔案載入資料

範例筆記本示範如何將 Apache Spark DataFrame 中的資料儲存至 TFRecord 檔案,以及載入 TFRecord 檔案以進行 ML 訓練。

您可以使用 tf.data.TFRecordDataset 類別載入 TFRecord 檔案。 如需詳細資訊,請參閱 從 TensorFlow 讀取 TFRecord 檔案

為分散式 DL 準備映像資料筆記本

取得筆記本