Databricks Runtime for Machine Learning
Databricks Runtime for Machine Learning (Databricks Runtime ML) により、事前に構築された機械学習、ディープ ラーニング インフラストラクチャ (最も一般的な ML および DL ライブラリを含む) を使用してクラスターの作成が自動化されます。 Databricks Runtime ML の各バージョンのライブラリの完全な一覧については、リリース ノートを参照してください。
Note
機械学習ワークフロー用の Unity Catalog のデータにアクセスするには、クラスターの [アクセス モード] を単一ユーザー (割り当て済み) にする必要があります。 共有クラスターは、Databricks Runtime for Machine Learning に対応していません。 さらに、Databricks Runtime ML は、TableACLs クラスターまたは spark.databricks.pyspark.enableProcessIsolation config
が true
に設定されたクラスターではサポートされていません。
Databricks Runtime ML を使用してクラスターを作成する
クラスターを作成するときは、[Databricks Runtime バージョン] ドロップダウン メニューから Databricks Runtime ML バージョンを選択します。 CPU および GPU 対応の ML ランタイムの両方を使用できます。
ノートブックのドロップダウン メニューからクラスターを選択すると、クラスター名の右側に Databricks Runtime のバージョンが表示されます。
GPU 対応の ML ランタイムを選択した場合は、互換性のあるドライバーの種類とワーカー タイプを選択するように求められます。 互換性のないインスタンスの種類は、ドロップダウン メニューで淡色表示されます。 GPU 対応のインスタンスの種類は、[GPU 加速化] ラベルの下に一覧表示されます。 Azure Databricks GPU クラスターの作成については、「GPU 対応コンピューティング」をご覧ください。 Databricks Runtime ML には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。
Photon と Databricks Runtime ML
Databricks Runtime 15.2 ML 以上を実行する CPU クラスターを作成するとき、Photon を有効にすることを選択できます。 Photon では、Spark SQL、Spark DataFrames、特徴エンジニアリング、GraphFrames、xgboost4j を使用してアプリケーションのパフォーマンスを向上させます。 Spark RDD、Pandas UDF、JVM 以外の言語 (Python など) を使用するアプリケーションのパフォーマンス向上は想定されていません。 したがって、XGBoost、PyTorch、TensorFlow などの Python パッケージでは、Photon の改善は確認されないでしょう。
Spark RDD API と Spark MLlib には、Photon との限定的な互換性があります。 Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する場合があります。 「Spark のメモリの問題」を参照してください。
Databricks Runtime ML に含まれているライブラリ
Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。 ライブラリは各リリースで更新され、新しい機能と修正プログラムが追加されました。
Databricks は、サポートされているライブラリのサブセットを最上位層ライブラリに指定しました。 これらのライブラリでは、Databricks の更新頻度が高速化し、ランタイム リリースごとに最新のパッケージ リリースに更新されます (依存関係の競合がない場合)。 Databricks では、最上位層ライブラリに対して高度なサポート、テスト、埋め込みの最適化も行われます。
最上位層と提供されているその他のライブラリの完全な一覧については、Databricks Runtime ML のリリース ノートを参照してください。
追加のライブラリをインストールして、ノートブックまたはクラスター用のカスタム環境を作成できます。
- クラスターで実行されているすべてのノートブックでライブラリを使用するには、クラスター ライブラリを作成します。 init スクリプトを使用して、ライブラリの作成時にクラスター上にライブラリをインストールできます。
- 特定のノートブック セッションでのみ使用できるライブラリをインストールするには、ノートブック スコープの Python ライブラリを使用します。