스튜디오 UI를 사용하여 표 형식 데이터에 대한 코드 없는 자동화된 ML 학습 설정
이 문서에서는 Azure Machine Learning 스튜디오에서 Azure Machine Learning 자동화된 ML을 사용하여 자동화된 Machine Learning 학습 작업을 설정합니다. 이 방식을 사용하면 코드 한 줄도 작성하지 않고도 작업을 설정할 수 있습니다. 자동화된 ML은 Azure Machine Learning이 특정 데이터에 가장 적합한 기계 학습 알고리즘을 선택하는 프로세스입니다. 이 프로세스를 통해 기계 학습 모델을 빠르게 생성할 수 있습니다. 자세한 내용은 자동화된 ML 프로세스 개요를 참조하세요.
이 자습서는 스튜디오에서 자동화된 ML 작업에 대한 개략적인 개요를 제공합니다. 다음 문서에서는 특정 기계 학습 모델 작업에 대한 자세한 지침을 제공합니다.
- 분류: 자습서: 스튜디오에서 자동화된 ML을 사용하여 분류 모델 학습
- 시계열 예측: 자습서: 스튜디오에서 자동화된 ML을 사용하여 수요 예측
- NLP(자연어 처리): NLP 모델 학습을 위한 자동화된 ML 설정(Azure CLI 또는 Python SDK)
- Computer Vision: Computer Vision 모델 학습을 위한 AutoML 설정(Azure CLI 또는 Python SDK)
- 회귀: 자동화된 ML을 사용하여 회귀 모델 학습(Python SDK)
필수 구성 요소
Azure 구독 Azure Machine Learning을 위한 무료 또는 유료 계정을 만들 수 있습니다.
Azure Machine Learning 작업 영역 또는 컴퓨팅 인스턴스입니다. 이러한 리소스를 준비하려면 빠른 시작: Azure Machine Learning 시작하기를 참조하세요.
자동화된 ML 학습 작업에 사용할 데이터 자산입니다. 이 자습서에서는 기존 데이터 자산을 선택하거나 로컬 파일, 웹 URL 또는 데이터 저장소와 같은 데이터 원본에서 데이터 자산을 만드는 방법을 설명합니다. 자세한 내용은 데이터 자산 만들기 및 관리를 참조하세요.
Important
학습 데이터에는 두 가지 요구 사항이 있습니다.
- 데이터는 테이블 형식이어야 합니다.
- 예측할 값(대상 열)이 데이터에 있어야 합니다.
실험 만들기
다음 단계에 따라 실험을 만들고 실행합니다.
Azure Machine Learning 스튜디오에 로그인한 다음, 구독과 작업 영역을 선택합니다.
왼쪽 메뉴의 작성 섹션에서 자동화된 ML을 선택합니다.
스튜디오에서 처음으로 실험 작업을 수행하면 빈 목록과 설명서 링크가 표시됩니다. 그렇지 않으면 Azure Machine Learning SDK로 만들어진 항목을 포함하여 최근 자동화된 ML 실험 목록이 표시됩니다.
새 자동화된 ML 작업을 선택하여 자동화된 ML 작업 제출 프로세스를 시작합니다.
기본적으로 프로세스는 학습 방법 탭에서 자동 학습 옵션을 선택하고 구성 설정을 계속 진행합니다.
기본 설정 탭에서 작업 이름 및 실험 이름을 포함하여 필수 설정 값을 입력합니다. 원하는 대로 선택적 설정에 대한 값을 제공할 수도 있습니다.
다음을 선택하여 작업을 계속할 수 있습니다.
데이터 자산 식별
작업 종류 및 데이터 탭에서 실험용 데이터 자산과 데이터 학습에 사용할 기계 학습 모델을 지정합니다.
이 자습서에서는 기존 데이터 자산을 사용하거나 로컬 컴퓨터의 파일에서 새 데이터 자산을 만들 수 있습니다. 스튜디오 UI 페이지는 선택한 데이터 원본 및 학습 모델 형식에 따라 변경됩니다.
기존 데이터 자산을 사용하기로 선택한 경우 계속해서 학습 모델 구성 섹션을 진행할 수 있습니다.
새 데이터 자산을 만들려면:
로컬 컴퓨터에 있는 파일에서 새 데이터 자산을 만들려면 만들기를 선택합니다.
데이터 형식 페이지에서:
- 데이터 자산 이름을 입력합니다.
- 형식의 경우 드롭다운 목록에서 테이블 형식을 선택합니다.
- 다음을 선택합니다.
데이터 원본 페이지에서 로컬 파일에서를 선택합니다.
Machine Learning 스튜디오는 데이터 원본을 구성할 수 있도록 왼쪽 메뉴에 추가 옵션을 추가합니다.
다음을 선택하여 데이터 자산을 업로드할 Azure Storage 위치를 지정하는 대상 스토리지 유형 페이지로 이동합니다.
작업 영역에서 자동으로 만들어진 기본 스토리지 컨테이너를 지정하거나 실험에 사용할 스토리지 컨테이너를 선택할 수 있습니다.
- 데이터 저장소 형식으로 Azure Blob Storage를 선택합니다.
- 데이터 저장소 목록에서 workspaceblobstore를 선택합니다.
- 다음을 선택합니다.
파일 및 폴더 선택 페이지에서 파일 또는 폴더 업로드 드롭다운 메뉴를 사용하고 파일 업로드 또는 폴더 업로드 옵션을 선택합니다.
- 업로드할 데이터 위치를 찾아 열기를 선택합니다.
- 파일을 업로드한 후 다음을 선택합니다.
Machine Learning 스튜디오는 데이터의 유효성을 검사하고 업로드합니다.
참고 항목
데이터가 가상 네트워크 뒤에 있는 경우 유효성 검사 건너뛰기 기능을 사용하도록 설정하여 작업 영역이 데이터에 액세스할 수 있도록 해야 합니다. 자세한 내용은 Azure 가상 네트워크에서 Azure Machine Learning 스튜디오 사용을 참조하세요.
정확한지 확인하려면 설정 페이지에서 업로드된 데이터를 확인합니다. 페이지의 필드는 데이터의 파일 형식에 따라 미리 채워집니다.
필드 설명 파일 형식 파일에 저장된 데이터의 레이아웃 및 유형을 정의합니다. 구분 기호 일반 텍스트 또는 다른 데이터 스트림에서 별도의 독립적인 지역 간의 경계를 지정하기 위한 하나 이상의 문자를 식별합니다. 인코딩 데이터 세트를 읽는 데 사용할 문자 스키마 테이블을 식별합니다. 열 머리글 데이터 세트의 헤더가 처리되는 방식을 나타냅니다. 행 건너뛰기 데이터 세트에서 건너뛴 행(있는 경우)의 수를 나타냅니다. 스키마 페이지로 이동하려면 다음을 선택합니다. 이 페이지는 또한 설정 선택 사항에 따라 미리 채워집니다. 각 열의 데이터 형식을 구성하고, 열 이름을 검토하고, 열을 관리할 수 있습니다.
- 열의 데이터 형식을 변경하려면 형식 드롭다운 메뉴를 사용하여 옵션을 선택합니다.
- 데이터 자산에서 열을 제외하려면 해당 열에 대한 포함 옵션을 전환합니다.
검토 페이지로 이동하려면 다음을 선택합니다. 작업에 대한 구성 설정 요약을 검토한 다음 만들기를 선택합니다.
학습 모델 구성
데이터 자산이 준비되면 Machine Learning 스튜디오는 자동화된 ML 작업 제출 프로세스를 위해 작업 종류 및 데이터 탭으로 돌아갑니다. 새 데이터 자산이 페이지에 나열됩니다.
작업 구성을 완료하려면 다음 단계를 따릅니다.
작업 종류 선택 드롭다운 메뉴를 확장하고 실험에 사용할 학습 모델을 선택합니다. 옵션에는 분류, 회귀, 시계열 예측, NLP(자연어 처리) 또는 Computer Vision이 포함됩니다. 이러한 옵션에 대한 자세한 내용은 지원되는 작업 종류 설명을 참조하세요.
학습 모델을 지정한 후 목록에서 데이터 세트를 선택합니다.
다음을 선택하여 작업 설정 탭으로 이동합니다.
대상 열 드롭다운 목록에서 모델 예측에 사용할 열을 선택합니다.
학습 모델에 따라 다음 필수 설정을 구성합니다.
분류: 딥 러닝 사용 여부를 선택합니다.
시계열 예측: 딥 러닝 사용 여부를 선택하고 필수 설정에 대한 기본 설정을 확인합니다.
모델에 사용할 시간 데이터를 지정하려면 시간 열을 사용합니다.
하나 이상의 자동 검색 옵션을 사용하도록 설정할지 여부를 선택합니다. 예측 범위 자동 검색과 같은 자동 검색 옵션의 선택을 취소하면 특정 값을 지정할 수 있습니다. 예측 범위 값은 모델이 향후를 예측할 수 있는 시간 단위(분/시간/일/주/월/년)를 나타냅니다. 모델이 예측해야 하는 미래가 멀수록 모델의 정확도는 떨어집니다.
이러한 설정을 구성하는 방법에 대한 자세한 내용은 자동화된 ML을 사용하여 시계열 예측 모델 학습을 참조하세요.
자연어 처리: 필수 설정에 대한 기본 설정을 확인합니다.
NLP 모델의 하위 분류 형식을 구성하려면 하위 형식 선택 옵션을 사용합니다. 다중 클래스 분류, 다중 레이블 분류 및 NER(명명된 엔터티 인식) 중에서 선택할 수 있습니다.
스윕 설정 섹션에서 슬랙 팩터 및 샘플링 알고리즘에 대한 값을 제공합니다.
검색 공간 섹션에서 모델 알고리즘 옵션 집합을 구성합니다.
이러한 설정을 구성하는 방법에 대한 자세한 내용은 NLP 모델 학습을 위한 자동화된 ML 설정(Azure CLI 또는 Python SDK)을 참조하세요.
Computer Vision: 수동 비우기 사용 여부를 선택하고 필수 설정에 대한 기본 설정을 확인합니다.
- Computer Vision 모델의 하위 분류 형식을 구성하려면 하위 형식 선택 옵션을 사용합니다. 이미지 분류(다중 클래스 또는 다중 레이블), 개체 감지 및 다각형(인스턴스 구분) 중에서 선택할 수 있습니다.
이러한 설정을 구성하는 방법에 대한 자세한 내용은 Computer Vision 모델 학습을 위한 AutoML 설정(Azure CLI 또는 Python SDK)을 참조하세요.
선택적 설정 지정
Machine Learning 스튜디오는 기계 학습 모델 선택에 따라 구성할 수 있는 선택적 설정을 제공합니다. 다음 섹션에서는 추가 설정에 대해 설명합니다.
추가 설정 구성
추가 구성 설정 보기 옵션을 선택하면 학습 준비 시 데이터에 수행할 작업을 볼 수 있습니다.
추가 구성 페이지에는 실험 선택 및 데이터에 따른 기본값이 표시됩니다. 기본값을 사용하거나 다음 설정을 구성할 수 있습니다.
설정 | 설명 |
---|---|
기본 메트릭 | 모델 점수를 매기기 위한 주요 메트릭을 식별합니다. 자세한 내용은 모델 메트릭을 참조하세요. |
앙상블 스택 사용 | 단일 모델을 사용하는 대신 여러 모델을 결합하여 앙상블 학습을 허용하고 기계 학습 결과와 예측 성능을 개선합니다. 자세한 내용은 앙상블 모델을 참조하세요. |
지원되는 모든 모델 사용 | 실험에서 지원되는 모든 모델을 사용할지 여부를 자동화된 ML에 지시하려면 이 옵션을 사용합니다. 자세한 내용은 각 작업 종류에 대해 지원되는 알고리즘을 참조하세요. - 차단된 모델 설정을 구성하려면 이 옵션을 선택합니다. - 허용된 모델 설정을 구성하려면 이 옵션의 선택을 취소합니다. |
차단된 모델 | (지원되는 모든 모델 사용을 선택한 경우 사용 가능) 드롭다운 목록을 사용하여 학습 작업에서 제외할 모델을 선택합니다. |
허용된 모델 | (지원되는 모든 모델 사용을 선택하지 않은 경우 사용 가능) 드롭다운 목록을 사용하여 학습 작업에 사용할 모델을 선택합니다. 중요: SDK 실험에만 사용할 수 있습니다. |
최상의 모델에 대한 설명 | 자동화된 ML로 만들어진 최고의 모델에 대한 설명 가능성을 자동으로 표시하려면 이 옵션을 선택합니다. |
양수 클래스 레이블 | 이진 메트릭 계산에 사용할 자동화된 ML의 레이블을 입력합니다. |
기능화 설정 구성
기능화 설정 보기 옵션을 선택하면 학습 준비 시 데이터에 대해 수행할 작업을 볼 수 있습니다.
기능화 페이지에는 데이터 열에 대한 기본 기능화 기술이 표시됩니다. 자동 기능화를 사용/사용하지 않을 수 있으며 실험에 대한 자동 기능화 설정을 사용자 지정할 수 있습니다.
구성을 허용하려면 기능화 사용 옵션을 선택합니다.
Important
데이터에 숫자가 아닌 열이 포함되어 있으면 기능화가 항상 사용하도록 설정됩니다.
원하는 대로 사용 가능한 각 열을 구성합니다. 다음 테이블은 현재 스튜디오를 통해 사용할 수 있는 사용자 지정을 요약해 보여 줍니다.
Column 사용자 지정 기능 형식 선택된 열에 대한 값 형식을 변경합니다. 다음으로 대체 데이터에서 누락된 값을 어떤 값으로 대체할지 선택합니다.
기능화 설정은 유추에 필요한 입력 데이터에 영향을 주지 않습니다. 학습에서 열을 제외하는 경우에도 제외된 열은 모델 유추를 위한 입력으로 필요합니다.
작업에 대한 제한 구성
한도 섹션에서는 다음 설정에 대한 구성 옵션을 제공합니다.
설정 | 설명 | 값 |
---|---|---|
최대 시도 횟수 | 자동화된 ML 작업 중에 평가할 최대 평가판 횟수를 지정합니다. 각 평가판에는 알고리즘과 하이퍼 매개 변수의 조합이 다릅니다. | 1에서 1,000 사이의 정수 |
최대 동시 시도 횟수 | 병렬로 실행할 수 있는 최대 평가판 작업 수를 지정합니다. | 1에서 1,000 사이의 정수 |
최대 노드 수 | 선택한 컴퓨팅 대상에서 이 작업이 사용할 수 있는 최대 노드 수를 지정합니다. | 컴퓨팅 구성에 따라 1개 이상 |
메트릭 점수 임계값 | 반복 메트릭 임계값을 입력합니다. 반복이 임계값에 도달하면 학습 작업이 종료됩니다. 의미 있는 모델의 상관 관계는 0보다 크다는 점을 유념해야 합니다. 그렇지 않으면 결과는 추측과 동일합니다. | 경계 [0, 10] 사이의 평균 메트릭 임계값 |
실험 시간 제한(분) | 전체 실험을 실행할 수 있는 최대 시간을 지정합니다. 실험이 한도에 도달하면 시스템은 모든 평가판(자식 작업)을 포함하여 자동화된 ML 작업을 취소합니다. | 시간(분) |
반복 시간 제한(분) | 각 평가판 작업을 실행할 수 있는 최대 시간을 지정합니다. 평가판 작업이 이 한도에 도달하면 시스템에서 평가판을 취소합니다. | 시간(분) |
조기 종료 사용 | 점수가 단기적으로 개선되지 않을 때 작업을 종료하려면 이 옵션을 사용합니다. | 작업 조기 종료를 사용하도록 설정하는 옵션을 선택합니다. |
유효성 검사 및 테스트
유효성 검사 및 테스트 섹션에서는 다음 구성 옵션을 제공합니다.
학습 작업에 사용할 유효성 검사 형식을 지정합니다.
validation_data
또는n_cross_validations
매개 변수를 명시적으로 지정하지 않으면 자동화된 ML이 단일 데이터 세트training_data
에 제공된 행 수에 따라 기본 기법을 적용합니다.학습 데이터 크기 유효성 검사 기법 20,000개 행 이상인 경우 학습/유효성 검사 데이터 분할이 적용됩니다. 기본값은 초기 학습 데이터 세트의 10%를 유효성 검사 세트로 사용하는 것입니다. 그러면 해당 유효성 검사 집합이 메트릭 계산에 사용됩니다. 20,000개 행 이하인 경우 교차 유효성 검사 방법이 적용됩니다. 기본 접기 횟수는 행의 수에 따라 달라집니다.
- 행이 1,000개 미만인 데이터 세트: 10개의 접기가 사용됨
- 행이 1,000~20,000개인 데이터 세트: 3개의 접기가 사용됩니다.실험이 끝날 때 자동화된 ML이 생성하는 권장 모델을 평가하려면 테스트 데이터(미리 보기)를 제공합니다. 테스트 데이터 세트를 제공하면 실험이 끝날 때 테스트 작업이 자동으로 트리거됩니다. 이 테스트 작업은 자동화된 ML에서 권장하는 최상의 모델에 대한 유일한 작업입니다. 자세한 내용은 원격 테스트 작업 결과 보기(미리 보기)를 참조하세요.
Important
테스트 데이터 세트를 제공하여 생성된 모델을 평가하는 기능은 미리 보기로 제공됩니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.
테스트 데이터는 학습 및 유효성 검사와 별개로 간주되며 권장 모델의 테스트 작업 결과에 바이어스를 주어서는 안 됩니다. 자세한 내용은 학습, 유효성 검사 및 테스트 데이터를 참조하세요.
고유한 테스트 데이터 세트를 제공하거나 학습 데이터 세트의 백분율을 사용하도록 선택할 수 있습니다. 테스트 데이터는 Azure Machine Learning 테이블 데이터 세트 형식이어야 합니다.
테스트 데이터 세트의 스키마는 학습 데이터 세트와 일치해야 합니다. 대상 열은 선택 사항이지만 대상 열이 표시되지 않으면 테스트 메트릭이 계산되지 않습니다.
테스트 데이터 세트는 학습 데이터 세트 또는 유효성 검사 데이터 세트와 동일하면 안 됩니다.
예측 작업은 학습/테스트 분할을 지원하지 않습니다.
컴퓨팅 구성
다음 단계에 따라 컴퓨팅을 구성합니다.
다음을 선택하여 컴퓨팅 탭으로 이동합니다.
컴퓨팅 형식 선택 드롭다운 목록을 사용하여 데이터 프로파일링 및 학습 작업에 대한 옵션을 선택합니다. 옵션에는 컴퓨팅 클러스터, 컴퓨팅 인스턴스 또는 서버리스가 포함됩니다.
컴퓨팅 형식을 선택하면 선택 사항에 따라 페이지의 다른 UI가 변경됩니다.
서버리스: 구성 설정이 현재 페이지에 표시됩니다. 구성할 설정에 대한 설명을 보려면 다음 단계를 계속합니다.
컴퓨팅 클러스터 또는 컴퓨팅 인스턴스: 다음 옵션 중에서 선택합니다.
자동화된 ML 컴퓨팅 선택 드롭다운 목록을 사용하여 작업 영역에 대한 기존 컴퓨팅을 선택한 후 다음을 선택합니다. 계속해서 실험 실행 및 결과 보기 섹션으로 이동합니다.
새 컴퓨팅 인스턴스 또는 클러스터를 만들려면 새로 만들기를 선택합니다. 이 옵션을 선택하면 컴퓨팅 만들기 페이지가 열립니다. 구성할 설정에 대한 설명을 보려면 다음 단계를 계속합니다.
서버리스 컴퓨팅 또는 새 컴퓨팅의 경우 필수(*) 설정을 구성합니다.
구성 설정은 컴퓨팅 형식에 따라 다릅니다. 다음 표에는 구성해야 할 수 있는 다양한 설정이 요약되어 있습니다.
필드 설명 컴퓨팅 이름 컴퓨팅 컨텍스트를 식별하는 고유한 이름을 입력합니다. 위치 컴퓨터의 지역을 지정합니다. 가상 머신 우선 순위 우선 순위가 낮은 가상 머신은 더 저렴하지만 컴퓨팅 노드를 보장하지는 않습니다. 가상 머신 유형 가상 머신 형식에 대해 CPU 또는 GPU를 선택합니다. 가상 머신 계층 실험의 우선 순위를 선택합니다. 가상 머신 크기 컴퓨팅에 사용할 가상 머신 크기를 선택합니다. 최소 / 최대 노드 데이터를 프로파일링하려면 하나 이상의 노드를 지정해야 합니다. 컴퓨팅에 사용할 최대 노드 수를 입력합니다. Azure Machine Learning 컴퓨팅의 기본값은 6개 노드입니다. 스케일 다운 전 유휴 시간(초) 클러스터가 자동으로 최소 노드 수로 스케일 다운되기 전의 유휴 시간을 지정합니다. 고급 설정 해당 설정을 사용하면 실험에 사용할 사용자 계정과 기존 가상 네트워크를 구성할 수 있습니다. 필수 설정을 구성한 후 적절하게 다음 또는 만들기를 선택합니다.
새 컴퓨팅을 만드는 데 몇 분 정도 걸릴 수 있습니다. 만들기가 완료되면 다음을 선택합니다.
실험 실행 및 결과 보기
마침을 선택하여 실험을 실행합니다. 실험 준비 프로세스는 최대 10분 정도 걸릴 수 있습니다. 각 파이프라인에서 실행을 완료하는 데 학습 작업에 2-3분 더 걸릴 수 있습니다. 가장 권장되는 모델에 대한 RAI 대시보드를 생성하도록 지정한 경우 최대 40분이 걸릴 수 있습니다.
참고 항목
자동화된 ML이 채택하는 알고리즘에는 내재된 무작위성이 있어서 권장된 모델의 최종 메트릭 점수(예: 정확도)에 약간의 변동을 일으킬 수 있습니다. 또한 자동화된 ML은 필요한 경우 학습-테스트 분할, 학습-유효성 검사 분할 또는 교차 유효성 검사와 같은 데이터에 대한 작업을 수행합니다. 동일한 구성 설정과 기본 메트릭을 사용하여 여러 번 실험을 실행한 경우, 이러한 요인으로 인해 각 실험의 최종 메트릭 점수에 변동이 있을 가능성이 높습니다.
실험 세부 정보 보기
작업 세부 정보 화면에서 세부 정보 탭이 열립니다. 이 화면은 작업 번호 옆 상단의 상태 표시줄을 포함하여 실험 작업의 요약을 보여 줍니다.
모델 탭에는 메트릭 점수를 기준으로 정렬하여 만든 모델 목록이 있습니다. 기본적으로 선택한 메트릭에 따라 가장 높은 점수를 획득한 모델이 목록 맨 위에 표시됩니다. 학습 작업이 더 많은 모델을 시도함에 따라 연습된 모델이 목록에 추가됩니다. 지금까지 생성된 모델의 메트릭을 빠르게 비교하려면 이 방식을 사용합니다.
학습 작업 세부 정보 보기
학습 작업 세부 정보를 보려면 완료된 모델을 드릴다운합니다. 메트릭 탭에서 특정 모델에 대한 성능 메트릭 차트를 볼 수 있습니다. 자세한 내용은 자동화된 Machine Learning 실험 결과 평가를 참조하세요. 이 페이지에서는 관련 코드, 자식 작업 및 이미지와 함께 모델의 모든 속성에 대한 세부 정보도 찾을 수 있습니다.
원격 테스트 작업 결과 보기(미리 보기)
유효성 검사 및 테스트 양식에서 테스트 데이터 세트를 지정하거나 실험 설정 중에 학습/테스트 분할을 선택한 경우 자동화된 ML은 기본적으로 권장 모델을 자동으로 테스트합니다. 결과적으로 자동화된 ML은 테스트 메트릭을 계산하여 권장 모델 및 해당 예측의 품질을 결정합니다.
Important
테스트 데이터 세트를 사용한 모델 테스트를 통해 생성된 모델을 평가하는 기능은 미리 보기입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.
다음과 같은 자동화된 ML 시나리오에서는 이 기능을 사용할 수 없습니다.
권장 모델의 테스트 작업 메트릭을 보려면 다음 단계를 따릅니다.
스튜디오에서 모델 페이지로 이동하여 가장 적합한 모델을 선택합니다.
테스트 결과(미리 보기) 탭을 선택합니다.
원하는 작업을 선택하고 메트릭 탭을 봅니다.
다음 단계에 따라 테스트 메트릭을 계산하는 데 사용되는 테스트 예측을 확인합니다.
페이지 하단에서 출력 데이터 세트 아래의 링크를 선택하여 데이터 세트를 엽니다.
데이터 세트 페이지에서 탐색 탭을 선택하여 테스트 작업의 예측을 봅니다.
예측 파일은 출력 + 로그 탭에서도 보고 다운로드할 수 있습니다. 예측 폴더를 확장하여 prediction.csv 파일을 찾습니다.
모델 테스트 작업은 predictions.csv 파일을 생성하여 작업 영역을 사용하여 만든 기본 데이터 저장소에 저장합니다. 이 데이터 저장소는 동일한 구독의 모든 사용자에게 표시됩니다. 테스트 작업에 사용되거나 테스트 작업에 의해 만들어진 정보가 프라이빗으로 유지되어야 하는 경우 테스트 작업은 시나리오에 권장되지 않습니다.
기존 자동화된 ML 모델 테스트(미리 보기)
실험이 완료되면 자동화된 ML이 생성하는 모델을 테스트할 수 있습니다.
Important
테스트 데이터 세트를 사용한 모델 테스트를 통해 생성된 모델을 평가하는 기능은 미리 보기입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.
다음과 같은 자동화된 ML 시나리오에서는 이 기능을 사용할 수 없습니다.
권장 모델이 아닌 다른 자동화된 ML 생성 모델을 테스트하려면 다음 단계를 따릅니다.
기존의 자동화된 ML 실험 작업을 선택합니다.
작업의 모델 탭으로 이동하고 테스트하려는 완료된 모델을 선택합니다.
모델 세부 정보 페이지에서 테스트 모델(미리 보기) 옵션을 선택하여 테스트 모델 창을 엽니다.
테스트 모델 창에서 테스트 작업에 사용할 컴퓨팅 클러스터 및 테스트 데이터 세트를 선택합니다.
테스트 옵션을 선택합니다. 테스트 데이터 세트의 스키마는 학습 데이터 세트와 일치해야 하지만 대상 열은 선택 사항입니다.
모델 테스트 작업을 성공적으로 만들면 세부 정보 페이지에 성공 메시지가 표시됩니다. 테스트 결과 탭을 선택하여 작업 진행률을 확인합니다.
테스트 작업 결과를 보려면 세부 정보 페이지를 열고 원격 테스트 작업 결과 보기(미리 보기) 섹션의 단계를 따릅니다.
책임 있는 AI 대시보드(미리 보기)
모델을 더 잘 이해하기 위해 책임 있는 AI 대시보드를 사용하여 모델에 대한 다양한 인사이트를 확인할 수 있습니다. 이 UI를 사용하면 최고의 자동화된 ML 모델을 평가하고 디버깅할 수 있습니다. 책임 있는 AI 대시보드는 모델 오류와 공정성 문제를 평가하고, 학습 및/또는 테스트 데이터를 평가하고 모델 설명을 관찰하여 오류가 발생하는 이유를 진단합니다. 이러한 인사이트는 모델에 대한 신뢰를 빌드하고 감사 프로세스를 통과하는 데 도움이 될 수 있습니다. 기존 자동화된 ML 모델에 대해서는 책임 있는 AI 대시보드를 생성할 수 없습니다. 대시보드는 새로운 자동화된 ML 작업이 만들어질 때 가장 권장되는 모델에 대해서만 만들어집니다. 사용자는 기존 모델에 대한 지원이 제공될 때까지 모델 설명(미리 보기)을 계속 사용해야 합니다.
다음 단계에 따라 특정 모델에 대한 책임 있는 AI 대시보드를 생성합니다.
자동화된 ML 작업을 제출하는 동안 왼쪽 메뉴의 작업 설정 섹션으로 이동하여 추가 구성 설정 보기 옵션을 선택합니다.
추가 구성 페이지에서 최적 모델 설명 옵션을 선택합니다.
컴퓨팅 탭으로 전환하고 컴퓨팅에 대해 서버리스 옵션을 선택합니다.
작업이 완료되면 학습된 모델 목록이 포함된 자동화된 ML 작업의 모델 페이지로 이동합니다. 책임 있는 AI 대시보드 보기 링크를 선택합니다.
선택한 모델에 대한 책임 있는 AI 대시보드가 나타납니다.
대시보드에는 자동화된 ML 최고의 모델에 대해 활성화된 네 가지 구성 요소가 표시됩니다.
구성 요소 구성 요소는 무엇을 표시하나요? 차트를 읽는 방법 오류 분석 다음이 필요한 경우 오류 분석을 사용합니다.
- 데이터 세트와 여러 입력 및 기능 차원에서 모델 오류가 분포되는 방식을 깊이 이해합니다.
- 대상 완화 단계를 알리기 위해 집계 성능 메트릭을 분석하여 잘못된 코호트를 자동으로 발견합니다.오류 분석 차트 모델 개요 및 공정성 이 구성 요소를 사용하여 다음을 수행합니다.
- 다양한 데이터 코호트에서 모델 성능을 깊이 있게 이해합니다.
- 불일치 메트릭을 확인하여 모델 공정성 문제를 이해합니다. 이러한 메트릭은 중요한(또는 중요하지 않은) 기능 측면에서 식별된 하위 그룹 전체에서 모델 동작을 평가하고 비교할 수 있습니다.모델 개요 및 공정성 차트 모델 설명 모델 설명 구성 요소를 사용하면 다음을 확인하여 기계 학습 모델의 예측에 대해 인간이 이해할 수 있는 설명을 생성할 수 있습니다.
- 글로벌 설명: 예를 들어, 대출 할당 모델의 전체 동작에 영향을 미치는 기능은 무엇인가요?
- 로컬 설명: 예를 들어 고객의 대출 애플리케이션이 승인되거나 거부된 이유는 무엇인가요?모델 설명 차트 데이터 분석 다음이 필요한 경우 데이터 분석을 사용합니다.
- 데이터를 여러 차원(코호트라고도 부름)으로 분할하기 위해 다른 필터를 선택하여 데이터 세트 통계를 탐색합니다.
- 여러 코호트 및 기능 그룹 간의 데이터 세트 분포를 이해합니다.
- 공정성, 오류 분석 및 인과관계(다른 대시보드 구성 요소에서 파생되는)와 관련된 발견 항목이 데이터 세트의 분포로 인한 결과인지 확인합니다.
- 표본 문제, 레이블 노이즈, 기능 노이즈, 레이블 편견 및 비슷한 요소로부터 발생하는 오류를 해결하기 위해 데이터를 더 수집해야 할 영역을 판단합니다.데이터 탐색기 차트 코호트(지정된 특성을 공유하는 데이터 포인트의 하위 그룹)를 추가로 만들어 각 구성 요소에 대한 분석을 다양한 코호트에 집중할 수 있습니다. 현재 대시보드에 적용된 코호트의 이름은 항상 대시보드의 왼쪽 상단에 표시됩니다. 대시보드의 기본 보기는 모든 데이터(기본값)라는 제목의 전체 데이터 세트입니다. 자세한 내용은 대시보드에 대한 전체 컨트롤을 참조하세요.
작업 편집 및 제출(미리 보기)
기존 실험의 설정을 기반으로 새 실험을 만들려는 시나리오에서 자동화된 ML은 스튜디오 UI에 편집 및 제출 옵션을 제공합니다. 이 기능은 스튜디오 UI에서 시작된 실험으로 제한되며, 새 실험의 데이터 스키마가 원래 실험과 일치해야 합니다.
Important
기존 실험을 기반으로 하는 새 실험을 복사, 편집, 제출하는 기능은 미리 보기 기능입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.
편집 및 제출 옵션은 데이터, 컴퓨팅, 실험 설정이 미리 채워진 새 자동화된 ML 작업 만들기 마법사를 엽니다. 마법사의 각 탭에서 옵션을 구성하고 새 실험에 필요한 대로 선택 항목을 편집할 수 있습니다.
모델 배포
최상의 모델을 얻은 후에는 모델을 웹 서비스로 배포하여 새 데이터를 예측할 수 있습니다.
참고 항목
automl
패키지를 통해 생성된 모델을 Python SDK와 함께 배포하려면 작업 영역에 모델을 등록해야 합니다.
모델을 등록한 후 왼쪽 메뉴에서 모델을 선택하여 스튜디오에서 모델을 찾을 수 있습니다. 모델 개요 페이지에서 배포 옵션을 선택하고 이 섹션의 2단계를 계속할 수 있습니다.
자동화된 ML을 사용하면 코드를 작성하지 않고도 모델을 배포할 수 있습니다.
다음 방법 중 하나를 사용하여 배포를 시작합니다.
정의한 메트릭 기준을 사용하여 최상의 모델을 배포합니다.
실험이 완료되면 작업 1을 선택하고 부모 작업 페이지로 이동합니다.
최상의 모델 요약 섹션에 나열된 모델을 선택한 다음 배포를 선택합니다.
이 실험에서 특정 모델 반복을 배포합니다.
- 모델 탭에서 원하는 모델을 선택한 다음 배포를 선택합니다.
모델 배포 창을 채웁니다.
필드 값 이름 배포에 대한 고유한 이름을 입력합니다. 설명 배포 목적을 더 잘 식별할 수 있도록 설명을 입력합니다. 컴퓨팅 형식 배포하려는 엔드포인트 유형으로 AKS(Azure Kubernetes Service) 또는 ACI(Azure Container Instance)를 선택합니다. 컴퓨팅 이름 (AKS에만 적용) 배포하려는 AKS 클러스터의 이름을 선택합니다. 인증 사용 토큰 기반 또는 키 기반 인증을 허용할지를 선택합니다. 사용자 지정 배포 자산 사용 사용자 고유의 채점 스크립트 및 환경 파일을 업로드하려면 사용자 지정 자산을 사용하도록 설정합니다. 그렇지 않으면 기본적으로 자동화된 ML에서 이러한 자산을 제공합니다. 자세한 내용은 온라인 엔드포인트를 사용하여 기계 학습 모델 배포 및 점수 매기기를 참조하세요. Important
파일 이름은 1에서 32자 사이여야 합니다. 이름은 영숫자로 시작하고 끝나야 하며 대시, 밑줄, 점, 영숫자를 포함할 수 있습니다. 공백이 없어야 합니다.
고급 메뉴에서는 데이터 수집 및 리소스 사용률 설정과 같은 기본 배포 기능을 제공합니다. 이 메뉴의 옵션을 사용하여 이러한 기본값을 재정의할 수 있습니다. 자세한 내용은 온라인 엔드포인트 모니터링을 참조하세요.
배포를 선택합니다. 배포가 완료되는 데 약 20분 정도 걸릴 수 있습니다.
배포가 시작되면 모델 요약 탭이 열립니다. 배포 상태 섹션에서 배포 진행률을 모니터링할 수 있습니다.
이제 예측을 생성하는 운영 웹 서비스가 있습니다! Microsoft Fabric의 엔드투엔드 AI 샘플에서 서비스를 쿼리하여 예측을 테스트할 수 있습니다.