다음을 통해 공유


pyspark.ml.connect를 사용한 Databricks Connect에서 Spark ML 모델 학습

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 pyspark.ml.connect 모듈을 사용하여 분산 학습을 수행하여 Spark ML 모델을 학습시키고 Databricks Connect에서 모델 유추를 실행하는 방법을 보여 주는 예제를 제공합니다.

pyspark.ml.connect이란 무엇인가요?

Spark 3.5는 Spark 연결 모드 및 Databricks Connect를 지원하도록 설계된 pyspark.ml.connect을 소개합니다. Databricks Connect에 대한 자세한 정보를 알아봅니다.

pyspark.ml.connect 모듈은 분류, 기능 변환기, ML 파이프라인 및 교차 유효성 검사를 비롯한 일반적인 학습 알고리즘 및 유틸리티로 구성됩니다. 이 모듈은 레거시 pyspark.ml모듈과 비슷한 인터페이스를 제공하지만 현재 pyspark.ml.connect 모듈에는 pyspark.ml 알고리즘의 하위 집합만 포함되어 있습니다 . 지원되는 알고리즘은 다음과 같습니다.

  • 분류 알고리즘: pyspark.ml.connect.classification.LogisticRegression
  • 기능 변환기: pyspark.ml.connect.feature.MaxAbsScalerpyspark.ml.connect.feature.StandardScaler
  • 계산기: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • 파이프라인: pyspark.ml.connect.pipeline.Pipeline
  • 모델 튜닝: pyspark.ml.connect.tuning.CrossValidator

요구 사항

예제 Notebook

다음 Notebook에서는 Databricks Connect에서 분산 ML을 사용하는 방법을 보여 줍니다.

Databricks Connect의 분산 ML

Notebook 가져오기

pyspark.ml.connect의 API에 대한 참조 정보의 경우 Databricks는 Apache Spark API 참조를 권장합니다.