AutoML을 사용하여 분류
AutoML을 사용하여 지정된 입력의 레이블 또는 범주를 예측하는 최상의 분류 알고리즘 및 하이퍼 매개 변수 구성을 자동으로 찾습니다.
UI를 사용하여 분류 실험 설정
다음 단계에 따라 AutoML UI를 사용하여 분류 문제를 설정할 수 있습니다.
사이드바에서 실험선택합니다.
분류 카드에서 학습시작합니다.
AutoML 실험 구성 페이지가 표시됩니다. 이 페이지에서는 AutoML 프로세스를 구성하고, 예측할 데이터 세트, 문제 유형, 대상 또는 레이블 열을 지정하고, 실험 실행을 평가하고 점수를 매기는 데 사용할 메트릭을 지정하고, 조건을 중지합니다.
컴퓨팅 필드에서 Databricks Runtime ML을 실행하는 클러스터를 선택합니다.
데이터 세트에서 찾아보기선택합니다.
사용하고자 하는 테이블로 이동한 후 선택을 클릭합니다. 테이블 스키마가 나타납니다.
- Databricks Runtime 10.3 ML 이상에서는 AutoML이 학습사용할 열을
지정할 수 있습니다. 예측 대상으로 선택한 열이나 데이터를 분할할 시간 열을 제거할 수 없습니다. - Databricks Runtime 10.4 LTS ML 이상에서는 드롭다운을 사용하여
Impute에서 선택하여 null 값이 지정할 수 있습니다. 기본적으로 AutoML은 열 형식 및 내용에 따라 대체 메서드를 선택합니다.
참고 항목
기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.
- Databricks Runtime 10.3 ML 이상에서는 AutoML이 학습사용할 열을
예측 대상 필드를 클릭합니다. 스키마에 표시된 열을 나열하는 드롭다운이 나타납니다. 모델에서 예측할 열을 선택합니다.
실험 이름 필드에는 기본 이름이 표시됩니다. 변경하려면 필드에 새 이름을 입력합니다.
다음도 가능합니다.
- 추가 구성 옵션을 지정합니다.
- 기능 저장소에 있는 기존 기능 테이블을 사용하여 원래 입력 데이터 세트을 보강하십시오.
고급 구성
고급 구성(선택 사항) 섹션을 열어 이러한 매개 변수에 액세스합니다.
- 평가 메트릭은 실행 점수를 매기는 데 사용되는 기본 메트릭입니다.
- Databricks Runtime 10.4 LTS ML 이상에서는 학습 프레임워크를 고려 대상에서 제외할 수 있습니다. 기본적으로 AutoML은 AutoML 알고리즘에 나열된 프레임워크를 사용하여 모델을 학습시킵니다.
- 정지 조건을 편집할 수 있습니다. 기본 정지 조건은 다음과 같습니다.
- 예측 실험의 경우 120분 후에 중지합니다.
- Databricks Runtime 10.4 LTS ML 이하에서 분류 및 회귀 실험의 경우 60분 후 또는 200번의 시도를 완료한 후 중 더 빠른 시점에 중지합니다. Databricks Runtime 11.0 ML 이상의 경우 시도 횟수는 중지 조건으로 사용되지 않습니다.
- Databricks Runtime 10.4 LTS ML 이상에서 분류 및 회귀 실험을 위해 AutoML은 조기 중지를 통합합니다. 유효성 검사 메트릭이 더 이상 개선되지 않으면 모델 학습 및 튜닝을 중지합니다.
- Databricks Runtime 10.4 LTS ML 이상에서는
time column
을 선택하여 학습, 검증 및 테스트를 위해 데이터를 시간 순서대로 분할할 수 있습니다. 이는 분류 및 회귀에만 적용됩니다. - Databricks는 데이터 디렉터리 필드를 채웁니다. 이렇게 하면 데이터 세트를 MLflow 아티팩트로 안전하게 저장하는 기본 동작이 트리거됩니다. DBFS 경로를 지정할 수 있지만 이 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
실험 실행 및 결과 모니터링
AutoML 실험을 시작하려면 AutoML 시작을 클릭합니다. 실험이 실행되기 시작하고 AutoML 학습 페이지가 나타납니다. 실행 테이블을 새로 고치려면 를 클릭합니다.
실험 진행률 보기
이 페이지에서 다음을 수행할 수 있습니다.
- 언제든지 실험을 중지합니다.
- 데이터 탐색 Notebook을 엽니다.
- 실행을 모니터링합니다.
- 실행에 대한 실행 페이지로 이동합니다.
Databricks Runtime 10.1 ML 이상을 사용하면 AutoML은 지원되지 않는 열 형식 또는 높은 카디널리티 열과 같은 데이터 세트의 잠재적 문제에 대한 경고를 표시합니다.
참고 항목
Databricks는 잠재적인 오류나 문제를 나타내기 위해 최선을 다합니다. 그러나 이는 포괄적이지 않을 수 있으며 검색할 수 있는 문제나 오류를 포착하지 못할 수 있습니다.
데이터 세트에 대한 경고를 보려면 학습 페이지 또는 실험이 완료된 후 실험 페이지에서 경고 탭을 클릭합니다.
결과 보기
실험이 완료되면 다음을 수행할 수 있습니다.
- MLflow로 모델 중 하나를 등록 및 배포합니다.
- 최상의 모델을 생성한 Notebook을 검토하고 편집하려면 Notebook 보기을 선택하십시오.
- 데이터 탐색 Notebook 보기를 선택하여 데이터 탐색 Notebook을 엽니다.
- 실행 테이블에서 실행을 검색하고, 필터링하며, 정렬합니다.
- 모든 실행에 대한 세부 정보 보기:
- 평가판 실행에 대한 소스 코드가 포함된 생성된 Notebook은 MLflow 실행을 클릭하여 찾을 수 있습니다. Notebook은 실행 페이지의 아티팩트 섹션에 저장됩니다. 작업 영역 관리자가 아티팩트 다운로드를 사용하도록 설정한 경우 이 Notebook을 다운로드하고 작업 영역으로 가져올 수 있습니다.
- 실행 결과를 보려면 모델 열 또는 시작 시간 열을 클릭합니다. 실행 페이지가 나타나며, 시험 실행과 실행에서 생성된 아티팩트(모델 포함)에 대한 정보(매개 변수, 메트릭, 태그 등)를 제공합니다. 이 페이지에는 모델로 예측하는 데 사용할 수 있는 코드 조각도 포함되어 있습니다.
이 AutoML 실험에 나중에 돌아가려면 실험 페이지테이블에서 찾아야 합니다. 데이터 탐색 및 학습 Notebook을 포함한 각 AutoML 실험의 결과는 실험을 실행한 사용자의 databricks_automl
에 있는 폴더에 저장됩니다.
모델 등록 및 배포
AutoML UI를 사용하여 모델을 등록하고 배포할 수 있습니다.
- 등록할 모델에 대한 모델 열에서 링크를 선택합니다. 실행이 완료되면 기본 메트릭을 기반으로 가장 적합한 모델이 맨 위 행입니다.
- 모델 등록 단추
선택하여 모델 레지스트리 모델을 등록합니다. - 사이드바에서
모델 선택하여 모델 레지스트리로 이동합니다.
- 모델 테이블에서 모델 이름을 선택합니다.
- 등록된 모델 페이지에서 모델 서비스로 모델을 제공할 수 있습니다.
'pandas.core.indexes.numeric'이라는 모듈이 없습니다.
모델 제공과 함께 AutoML을 사용하여 빌드된 모델을 제공하는 경우 다음과 같은 오류가 발생할 수 있습니다. No module named 'pandas.core.indexes.numeric
.
이는 AutoML과 엔드포인트 환경을 제공하는 모델 간의 호환되지 않는 pandas
버전 때문입니다.
add-pandas-dependency.py 스크립트를 실행하여 이 오류를 해결할 수 있습니다. 스크립트는 적절한 requirements.txt
종속성 버전 conda.yaml
을 포함하도록 기록된 모델에 대한 pandas
및 pandas==1.5.3
을 편집합니다.
- 모델이 기록된 MLflow 실행의
run_id
포함하도록 스크립트를 수정합니다. - 모델을 MLflow 모델 레지스트리에 다시 등록합니다.
- 새 버전의 MLflow 모델을 제공해 보세요.