pyspark.ml.connect
を使用して Databricks Connect で Spark ML モデルをトレーニングする
重要
この機能はパブリック プレビュー段階にあります。
この記事では、pyspark.ml.connect
モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。
pyspark.ml.connect
の概要
Spark 3.5 では、Spark 接続モードと Databricks Connect をサポートするように設計された pyspark.ml.connect
が導入されています。 Databricks Connect の詳細を確認します。
pyspark.ml.connect
モジュールは、分類、特徴変換器、ML パイプライン、クロス検証などの一般的な学習アルゴリズムとユーティリティで構成されています。 このモジュールは、レガシ pyspark.ml
モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect
モジュールには現在、pyspark.ml
のアルゴリズムのサブセットのみが含まれています。 サポートされているアルゴリズムを次に示します。
- 分類アルゴリズム:
pyspark.ml.connect.classification.LogisticRegression
- 特徴変換器:
pyspark.ml.connect.feature.MaxAbsScaler
およびpyspark.ml.connect.feature.StandardScaler
- エバリュエーター:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
、MulticlassClassificationEvaluator
- パイプライン:
pyspark.ml.connect.pipeline.Pipeline
- モデル チューニング:
pyspark.ml.connect.tuning.CrossValidator
必要条件
- クラスターで Databricks Connect を設定します。 「Databricks Connect のクラスター構成」を参照してください。
- Databricks Runtime 14.0 ML 以降がインストールされています。
Assigned
のクラスター アクセス モード。
ノートブックの例
次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。
Databricks Connect での分散 ML
Databricks は、pyspark.ml.connect
の API に関するリファレンス情報について、Apache Spark API リファレンスを推奨しています