pyspark.ml.connect
를 사용한 Databricks Connect에서 Spark ML 모델 학습
Important
이 기능은 공개 미리 보기 상태입니다.
이 문서에서는 pyspark.ml.connect
모듈을 사용하여 분산 학습을 수행하여 Spark ML 모델을 학습시키고 Databricks Connect에서 모델 유추를 실행하는 방법을 보여 주는 예제를 제공합니다.
pyspark.ml.connect
이란 무엇인가요?
Spark 3.5는 Spark 연결 모드 및 Databricks Connect를 지원하도록 설계된 pyspark.ml.connect
을 소개합니다. Databricks Connect에 대한 자세한 정보를 알아봅니다.
pyspark.ml.connect
모듈은 분류, 기능 변환기, ML 파이프라인 및 교차 유효성 검사를 비롯한 일반적인 학습 알고리즘 및 유틸리티로 구성됩니다. 이 모듈은 레거시 pyspark.ml
모듈과 비슷한 인터페이스를 제공하지만 현재 pyspark.ml.connect
모듈에는 pyspark.ml
알고리즘의 하위 집합만 포함되어 있습니다 . 지원되는 알고리즘은 다음과 같습니다.
- 분류 알고리즘:
pyspark.ml.connect.classification.LogisticRegression
- 기능 변환기:
pyspark.ml.connect.feature.MaxAbsScaler
및pyspark.ml.connect.feature.StandardScaler
- 계산기:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
및MulticlassClassificationEvaluator
- 파이프라인:
pyspark.ml.connect.pipeline.Pipeline
- 모델 튜닝:
pyspark.ml.connect.tuning.CrossValidator
요구 사항
- 클러스터에서 Databricks Connect를 설정합니다. Databricks Connect에 대한 컴퓨팅 구성을 참조하세요.
- Databricks Runtime 14.0 ML 이상이 설치되었습니다.
Assigned
의 클러스터 액세스 모드
예제 Notebook
다음 Notebook에서는 Databricks Connect에서 분산 ML을 사용하는 방법을 보여 줍니다.
Databricks Connect의 분산 ML
pyspark.ml.connect
의 API에 대한 참조 정보의 경우 Databricks는 Apache Spark API 참조를 권장합니다.