Sdílet prostřednictvím


Uložení datových rámců Apache Sparku jako souborů TFRecord

V tomto článku se dozvíte, jak pomocí konektoru spark-tensorflow-connector uložit datové rámce Apache Sparku do souborů TFRecord a načíst TFRecord s TensorFlow.

Formát souboru TFRecord je jednoduchý binární formát orientovaný na záznam pro trénovací data ML. Tf.data.TFRecordDataset třída umožňuje streamovat obsah jednoho nebo více souborů TFRecord jako součást vstupního kanálu.

Použití spark-tensorflow-connector knihovny

Pomocí konektoru spark-tensorflow-connector můžete ukládat datové rámce Apache Sparku do souborů TFRecord.

spark-tensorflow-connectorje knihovna v ekosystému TensorFlow, která umožňuje převod mezi datovými rámci Sparku a TFRecords (oblíbený formát pro ukládání dat pro TensorFlow). Pomocí konektoru spark-tensorflow-connector můžete pomocí rozhraní API datového rámce Sparku číst soubory TFRecords do datových rámců a zapisovat datové rámce jako soubory TFRecords.

Poznámka:

Knihovna spark-tensorflow-connector je součástí modulu Databricks Runtime pro Machine Learning. Pokud chcete používat spark-tensorflow-connectorpoznámky k verzi Databricks Runtime a jeho kompatibilitu, musíte knihovnu nainstalovat z Mavenu. Podrobnosti najdete v balíčku Maven nebo Spark.

Příklad: Načtení dat ze souborů TFRecord pomocí TensorFlow

Ukázkový poznámkový blok ukazuje, jak uložit data z datových rámců Apache Sparku do souborů TFRecord a načíst soubory TFRecord pro trénování ML.

Soubory TFRecord můžete načíst pomocí tf.data.TFRecordDataset třídy. Podrobnosti najdete v tématu čtení souboru TFRecord z TensorFlow.

Příprava dat image pro distribuovaný poznámkový blok DL

Get notebooku