機械学習とディープ ラーニング用のデータの読み込み
このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。 データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。
データの読み込みとモデルのチェックポイント処理のためにファイルを格納する
機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。 これは分散型ディープ ラーニングの場合に特に重要です。
Azure Databricks Unity Catalogは、データと AI 資産の統合されたガバナンス ソリューションです。 Unity Catalog を使用して、Spark とローカル ファイル API の両方を使用してクラスター上のデータにアクセスできます。
表形式データを読み込む
表形式の機械学習データは、toPandas()
を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッドto_numpy()
を使用して NumPy 形式に変換できます。
大規模言語モデルを微調整するためのデータを準備する
Hugging Face Transformers と Hugging Face Datasets を使用して、オープン ソースの大規模言語モデルを微調整するためのデータを準備できます。
Hugging Face モデルを微調整するためのデータを準備する
分散型ディープ ラーニング トレーニングについて、データを準備してください。
このセクションでは、Mosaic ストリーミングおよび TFRecords を使用した分散型ディープ ラーニング トレーニング用のデータ準備について説明します。