次の方法で共有


ディープ ラーニング

この記事では、Azure Databricks でディープ ラーニング モデルを開発および微調整するための PyTorch、Tensorflow、分散トレーニングの使用について簡単に説明します。 また、これらのツールの使用方法を示すノートブックの例を含むページへのリンクも含まれています。

PyTorch

PyTorch は Databricks Runtime ML に含まれており、GPU で高速化されたテンソル計算と、ディープ ラーニング ネットワークを構築するための高度な機能を提供します。 Databricks で PyTorch を使用して、単一ノード トレーニングまたは分散トレーニングを実行できます。 「PyTorch」を参照してください。

TensorFlow

Databricks Runtime ML には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、GPU のクラスターでのディープラーニングや、一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープ ラーニングのワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。 単一ノード トレーニングと分散トレーニングの例については、「TensorFlow」を参照してください。

分散トレーニング

ディープ ラーニング モデルはデータ集中型で計算を集中的に行うため、分散トレーニングが重要になる場合があります。 Ray、TorchDistributor、および DeepSpeed との統合を使用した分散型ディープ ラーニングの例については、「分散型トレーニング」を参照してください。

ディープ ラーニング モデルの開発を追跡する

追跡は依然として MLflow エコシステムの基礎であり、ディープ ラーニングの反復的な性質にとって特に重要です。 Databricks では、MLflow を使用してディープ ラーニング トレーニングの実行とモデル開発を追跡します。 「MLflow を使用してモデル開発を追跡する」を参照してください。