將 Apache Spark DataFrame 儲存為 TFRecord 檔案
本文會說明如何使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案,並使用 TensorFlow 載入 TFRecord。
TFRecord 檔案格式是 ML 訓練資料的簡單記錄導向型二進位格式。 tf.data.TFRecordDataset 類別可讓您在輸入管線中串流一或多個 TFRecord 檔案的內容。
使用 spark-tensorflow-connector
程式庫
您可以使用 spark-tensorflow-connector 將 Apache Spark DataFrame 儲存至 TFRecord 檔案。
spark-tensorflow-connector
是 TensorFlow 生態系統中的程式庫,可在 Spark DataFrame 與 TFRecords (一種熱門的 TensorFlow 資料儲存格式) 之間進行轉換。 使用 spark-tensorflow-connector,您可以使用 Spark DataFrame API 將 TFRecords 檔案讀取至 DataFrame,並將 DataFrame 寫入為 TFRecords。
注意
spark-tensorflow-connector
程式庫包括在適用於機器學習的 Databricks Runtime 中。 若要在 spark-tensorflow-connector
上使用 ,您需要從 Maven 安裝程式庫。 如需詳細資料,請參閱 Maven 或 Spark 套件。
範例:使用 TensorFlow 從 TFRecord 檔案載入資料
範例筆記本示範如何將 Apache Spark DataFrame 中的資料儲存至 TFRecord 檔案,以及載入 TFRecord 檔案以進行 ML 訓練。
您可以使用 tf.data.TFRecordDataset
類別載入 TFRecord 檔案。 如需詳細資訊,請參閱 從 TensorFlow 讀取 TFRecord 檔案。