Uložení datových rámců Apache Sparku jako souborů TFRecord
V tomto článku se dozvíte, jak pomocí konektoru spark-tensorflow-connector uložit datové rámce Apache Sparku do souborů TFRecord a načíst TFRecord s TensorFlow.
Formát souboru TFRecord je jednoduchý binární formát orientovaný na záznam pro trénovací data ML. Tf.data.TFRecordDataset třída umožňuje streamovat obsah jednoho nebo více souborů TFRecord jako součást vstupního kanálu.
Použití spark-tensorflow-connector
knihovny
Pomocí konektoru spark-tensorflow-connector můžete ukládat datové rámce Apache Sparku do souborů TFRecord.
spark-tensorflow-connector
je knihovna v ekosystému TensorFlow, která umožňuje převod mezi datovými rámci Sparku a TFRecords (oblíbený formát pro ukládání dat pro TensorFlow). Pomocí konektoru spark-tensorflow-connector můžete pomocí rozhraní API datového rámce Sparku číst soubory TFRecords do datových rámců a zapisovat datové rámce jako soubory TFRecords.
Poznámka:
Knihovna spark-tensorflow-connector
je součástí modulu Databricks Runtime pro Machine Learning. Pokud chcete používat spark-tensorflow-connector
poznámky k verzi Databricks Runtime a jeho kompatibilitu, musíte knihovnu nainstalovat z Mavenu. Podrobnosti najdete v balíčku Maven nebo Spark.
Příklad: Načtení dat ze souborů TFRecord pomocí TensorFlow
Ukázkový poznámkový blok ukazuje, jak uložit data z datových rámců Apache Sparku do souborů TFRecord a načíst soubory TFRecord pro trénování ML.
Soubory TFRecord můžete načíst pomocí tf.data.TFRecordDataset
třídy. Podrobnosti najdete v tématu čtení souboru TFRecord z TensorFlow.