하이퍼 매개 변수 튜닝
Optuna, Ray Tune 및 Hyperopt와 같은 Python 라이브러리는 하이퍼 매개 변수 튜닝을 간소화하고 자동화하여 기계 학습 모델에 대한 최적의 하이퍼 매개 변수 집합을 효율적으로 찾습니다. 이러한 라이브러리는 여러 컴퓨팅에 걸쳐 확장되어 최소한의 수동 오케스트레이션 및 구성 요구 사항으로 하이퍼 매개 변수를 빠르게 찾을 수 있습니다.
Optuna
Optuna 는 하이퍼 매개 변수 튜닝 및 모델 선택을 위한 동적 검색 공간을 쉽게 정의할 수 있는 경량 프레임워크입니다. Optuna에는 최신 최적화 및 기계 학습 알고리즘이 포함되어 있습니다.
Optuna는 Joblib과 쉽게 병렬화하여 워크로드 크기를 조정할 수 있으며, Mlflow와 통합되어 여러 평가판에서 하이퍼 매개 변수 및 메트릭을 추적할 수 있습니다.
Optuna를 시작하려면 Optuna를 사용한 하이퍼 매개 변수 튜닝을 참조하세요.
레이 튜닝
Databricks Runtime ML에는 병렬 컴퓨팅 처리에 사용되는 오픈 소스 프레임워크인 Ray가 포함되어 있습니다. Ray Tune은 Ray와 함께 제공되는 하이퍼 매개 변수 튜닝 라이브러리로, 분산 컴퓨팅을 위한 백 엔드로 Ray를 사용합니다.
Databricks에서 Ray를 실행하는 방법에 대한 자세한 내용은 Azure Databricks에서 Ray란?을 참조하세요. Ray Tune의 예는 Ray Tune 설명서를 참조 하세요.
Hyperopt
참고 항목
Hyperopt의 오픈 소스 버전은 더 이상 유지 관리되지 않습니다.
Hyperopt는 다음 주 DBR ML 버전에서 제거됩니다. Azure Databricks는 유사한 환경에 Optuna를 사용하고 최신 하이퍼 매개 변수 튜닝 알고리즘에 액세스할 것을 권장합니다.
Hyperopt 는 분산 하이퍼 매개 변수 튜닝 및 모델 선택에 사용되는 Python 라이브러리입니다. Hyperopt는 Apache Spark MLlib 및 Horovod와 같은 분산 ML 알고리즘과 scikit-learn 및 TensorFlow와 같은 단일 머신 ML 모델 모두에서 작동합니다.
Hyperopt 사용을 시작하려면 Hyperopt에서 분산 학습 알고리즘 사용을 참조하세요.
MLlib 자동화된 MLflow 추적
참고 항목
MLlib 자동화 MLflow 추적은 Databricks Runtime 10.4 LTS ML 이상을 실행하는 클러스터에서 기본적으로 사용되지 않으며 사용하지 않도록 설정됩니다.
대신 Databricks Autologging과 함께 기본적으로 사용하도록 설정되는 mlflow.pyspark.ml.autolog()
를 호출하여 MLflow PySpark ML 자동 로깅을 사용합니다.
MLlib 자동화된 MLflow 추적을 사용하여 CrossValidator 또는 TrainValidationSplit를 사용하는 튜닝 코드를 실행할 때 하이퍼 매개 변수 및 평가 메트릭은 MLflow에 자동으로 기록됩니다.