`pyspark.ml.connect` を使用して Databricks Connect で Spark ML モデルをトレーニングする

[アーティクル]
11/24/2024

重要

この記事では、pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。

`pyspark.ml.connect` の概要

Spark 3.5 では、Spark 接続モードと Databricks Connect をサポートするように設計された pyspark.ml.connect が導入されています。 Databricks Connect の詳細を確認します。

pyspark.ml.connect モジュールは、分類、特徴変換器、ML パイプライン、クロス検証などの一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、レガシ pyspark.ml モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect モジュールには現在、pyspark.ml のアルゴリズムのサブセットのみが含まれています。サポートされているアルゴリズムを次に示します。

分類アルゴリズム: pyspark.ml.connect.classification.LogisticRegression
特徴変換器: pyspark.ml.connect.feature.MaxAbsScaler および pyspark.ml.connect.feature.StandardScaler
エバリュエーター: pyspark.ml.connect.RegressionEvaluator、pyspark.ml.connect.BinaryClassificationEvaluator、MulticlassClassificationEvaluator
パイプライン: pyspark.ml.connect.pipeline.Pipeline
モデルチューニング: pyspark.ml.connect.tuning.CrossValidator

必要条件

クラスターで Databricks Connect を設定します。 Databricks Connect の Compute 構成を参照してください。
Databricks Runtime 14.0 ML 以降がインストールされています。
Assigned のクラスターアクセスモード。

ノートブックの例

次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。

Databricks Connect での分散 ML

ノートブックを入手

Databricks は、pyspark.ml.connect の API に関するリファレンス情報について、Apache Spark API リファレンスを推奨しています

次の方法で共有

`pyspark.ml.connect` を使用して Databricks Connect で Spark ML モデルをトレーニングする

`pyspark.ml.connect` の概要

必要条件

ノートブックの例

Databricks Connect での分散 ML

フィードバック

その他のリソース

次の方法で共有

pyspark.ml.connect を使用して Databricks Connect で Spark ML モデルをトレーニングする

pyspark.ml.connect の概要

必要条件

ノートブックの例

Databricks Connect での分散 ML

フィードバック

その他のリソース

`pyspark.ml.connect` を使用して Databricks Connect で Spark ML モデルをトレーニングする

`pyspark.ml.connect` の概要