다음을 통해 공유


AutoML Python API를 사용하여 예측 모델 학습

이 문서에서는 AutoML Python API를 사용하여 AutoML로 모델을 학습하는 방법을 보여 줍니다. 자세한 내용은 AutoML Python API 참조를 참조하세요.

API는 분류, 회귀 및 예측 AutoML 실행을 시작하는 함수를 제공합니다. 각 함수 호출은 여러 set 모델을 학습시키고 각 모델에 대해 실험 노트북을 생성합니다.

AutoML 실험에 대한 요구 사항을 참조하세요.

AutoML API를 사용하여 실험 설정

다음 단계에서는 일반적으로 API를 사용하여 AutoML 실험을 set 방법을 설명합니다.

  1. Notebook을 만들고 Databricks Runtime ML을 실행하는 클러스터에 연결합니다.

  2. 기존 데이터 원본에서 사용할 식별하거나 DBFS 데이터 파일을 업로드하고 만들 .

  3. AutoML 실행을 시작하려면 automl.regress(), automl.classify()또는 automl.forecast() 함수를 사용하고 다른 학습 table과 함께 parameters을 전달합니다. 모든 함수와 parameters를 보려면 AutoML Python API 참조를 확인하세요.

    참고 항목

    automl.forecast() 함수는 클래식 컴퓨팅에서 예측하는 데만 사용할 수 있습니다.

    예시:

    # Regression example
    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
    # Classification example
    summary = automl.classification(dataset=train_pdf, target_col="col_to_predict")
    
    # Forecasting example
    summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
    
  4. AutoML 실행이 시작되면 MLflow 실험 URL이 콘솔에 나타납니다. 이 URL을 사용하여 실행 진행 상황을 모니터링합니다. MLflow 실험에서 진행 중인 평가판을 Refresh으로 확인하세요.

  5. AutoML 실행이 완료된 후:

  • 출력 요약의 링크를 사용하여 MLflow 실험 또는 최상의 결과를 생성한 Notebook으로 이동합니다.
  • 데이터 탐색 Notebook에 대한 링크를 사용하여 AutoML에 전달된 데이터에 대한 인사이트를 얻습니다. 이 Notebook을 동일한 클러스터에 연결하고 Notebook을 다시 실행하여 결과를 재현하거나 추가 데이터 분석을 수행할 수도 있습니다.
  • AutoML 호출에서 반환된 요약 개체를 사용하여 시도에 대한 자세한 내용을 탐색하거나 주어진 시도에서 학습된 모델을 로드합니다. AutoMLSummary 개체에 대해 자세히 알아보세요.
  • 평가판에서 생성된 Notebook을 복제하고 동일한 클러스터에 연결하여 Notebook을 다시 실행하여 결과를 재현합니다. 필요한 편집 작업을 수행하고 다시 실행하여 추가 모델을 학습하고 동일한 실험에 기록할 수도 있습니다.

Notebook 가져오기

MLflow 아티팩트로 저장된 Notebook을 가져오려면 databricks.automl.import_notebook Python API를 사용합니다. 자세한 내용은 Notebook 가져오기를 참조하세요.

모델 등록 및 배포

MLflow 모델 레지스트리에 등록된 모델과 마찬가지로 AutoML로 학습된 모델을 등록하고 배포할 수 있습니다. MLflow 모델을 로그하고, 로드하고, 등록하기 참조하세요.

pandas.core.indexes.numeric 이름의 모듈이 없음

AutoML을 사용하여 빌드된 모델을 Model Serving으로 제공할 때, get 오류가 발생할 수 있습니다: No module named pandas.core.indexes.numeric.

이는 AutoML과 엔드포인트 환경을 제공하는 모델 간의 호환되지 않는 pandas 버전 때문입니다. 오류를 해결하려면:

  1. add-pandas-dependency.py 스크립트를 다운로드합니다. 스크립트는 적절한 requirements.txt 종속성 버전 conda.yaml을 포함하도록 기록된 모델에 대한 pandaspandas==1.5.3을 편집합니다.
  2. MLflow 실행 run_id에 기록된 모델의 where을 포함하도록 스크립트를 수정하세요.
  3. MLflow 모델 레지스트리에 모델을 다시 등록합니다.
  4. 새 버전의 MLflow 모델을 제공해 보세요.

Notebook 예제

다음 Notebook에서는 AutoML을 사용하여 예측을 수행하는 방법을 보여줍니다.

AutoML 예측 예제 Notebook

Get 노트북

다음 단계

AutoML Python API 참조입니다.