ディープ ラーニング
この記事では、Azure Databricks でディープ ラーニング モデルを開発および微調整するための PyTorch、Tensorflow、分散トレーニングの使用について簡単に説明します。 また、これらのツールの使用方法を示すノートブックの例を含むページへのリンクも含まれています。
- Azure Databricks でのディープ ラーニング ワークフローの最適化に関する一般的なガイドラインについては、Azure Databricks でのディープ ラーニングの推奨事項に関する記事をご覧ください。
- Azure Databricks で大規模な言語モデルと生成 AI を使用する方法については、次をご覧ください。
PyTorch
PyTorch は Databricks Runtime ML に含まれており、GPU で高速化されたテンソル計算と、ディープ ラーニング ネットワークを構築するための高度な機能を提供します。 Databricks で PyTorch を使用して、単一ノード トレーニングまたは分散トレーニングを実行できます。 「PyTorch」を参照してください。
TensorFlow
Databricks Runtime ML には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、GPU のクラスターでのディープラーニングや、一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープ ラーニングのワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。 単一ノード トレーニングと分散トレーニングの例については、「TensorFlow」を参照してください。
分散トレーニング
ディープ ラーニング モデルはデータ集中型で計算を集中的に行うため、分散トレーニングが重要になる場合があります。 Ray、TorchDistributor、および DeepSpeed との統合を使用した分散型ディープ ラーニングの例については、「分散型トレーニング」を参照してください。
ディープ ラーニング モデルの開発を追跡する
追跡は依然として MLflow エコシステムの基礎であり、ディープ ラーニングの反復的な性質にとって特に重要です。 Databricks では、MLflow を使用してディープ ラーニング トレーニングの実行とモデル開発を追跡します。 「MLflow を使用してモデル開発を追跡する」を参照してください。