機械学習とディープラーニング用のデータの読み込み

[アーティクル]
01/23/2025

このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。これは分散型ディープラーニングの場合に特に重要です。

Azure Databricks Unity Catalogは、データと AI 資産の統合されたガバナンスソリューションです。 Unity Catalog を使用して、Spark とローカルファイル API の両方を使用してクラスター上のデータにアクセスできます。

表形式データを読み込む

表形式の機械学習データは、またはファイルから読み込むことができます (例: csv ファイルの読み取り参照)。 PySpark メソッドtoPandas() を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッドto_numpy() を使用して NumPy 形式に変換できます。

大規模言語モデルを微調整するためのデータを準備する

Hugging Face Transformers と Hugging Face Datasets を使用して、オープンソースの大規模言語モデルを微調整するためのデータを準備できます。

Hugging Face モデルを微調整するためのデータを準備する

分散型ディープラーニングトレーニングについて、データを準備してください。

このセクションでは、Mosaic ストリーミングおよび TFRecords を使用した分散型ディープラーニングトレーニング用のデータ準備について説明します。

次の方法で共有

機械学習とディープラーニング用のデータの読み込み

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

表形式データを読み込む

大規模言語モデルを微調整するためのデータを準備する

分散型ディープラーニングトレーニングについて、データを準備してください。

フィードバック

その他のリソース

次の方法で共有

機械学習とディープ ラーニング用のデータの読み込み

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

表形式データを読み込む

大規模言語モデルを微調整するためのデータを準備する

分散型ディープ ラーニング トレーニングについて、データを準備してください。

フィードバック

その他のリソース

機械学習とディープラーニング用のデータの読み込み

分散型ディープラーニングトレーニングについて、データを準備してください。