次の方法で共有


pyspark.ml.connect を使用して Databricks Connect で Spark ML モデルをトレーニングする

重要

この機能はパブリック プレビュー段階にあります。

この記事では、pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。

pyspark.ml.connect の概要

Spark 3.5 では、Spark 接続モードと Databricks Connect をサポートするように設計された pyspark.ml.connect が導入されています。 Databricks Connect の詳細を確認します。

pyspark.ml.connect モジュールは、分類、特徴変換器、ML パイプライン、クロス検証などの一般的な学習アルゴリズムとユーティリティで構成されています。 このモジュールは、レガシ pyspark.ml モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect モジュールには現在、pyspark.ml のアルゴリズムのサブセットのみが含まれています。 サポートされているアルゴリズムを次に示します。

  • 分類アルゴリズム: pyspark.ml.connect.classification.LogisticRegression
  • 特徴変換器: pyspark.ml.connect.feature.MaxAbsScaler および pyspark.ml.connect.feature.StandardScaler
  • エバリュエーター: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • パイプライン: pyspark.ml.connect.pipeline.Pipeline
  • モデル チューニング: pyspark.ml.connect.tuning.CrossValidator

必要条件

  • クラスターで Databricks Connect を設定します。 Databricks Connect の Compute 構成を参照してください。
  • Databricks Runtime 14.0 ML 以降がインストールされています。
  • Assigned のクラスター アクセス モード。

ノートブックの例

次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。

Databricks Connect での分散 ML

ノートブックを入手

Databricks は、pyspark.ml.connect の API に関するリファレンス情報について、Apache Spark API リファレンスを推奨しています