다음을 통해 공유


Machine Learning Studio(클래식)에서 알고리즘을 최적화하기 위한 매개 변수 선택

적용 대상: 적용 대상Machine Learning Studio(클래식) 미적용 대상Azure Machine Learning

Important

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 항목에서는 Machine Learning Studio(클래식)에서 알고리즘에 대해 올바른 하이퍼파라미터 집합을 선택하는 방법에 대해 설명합니다. 대부분의 기계 학습 알고리즘에는 설정할 매개 변수가 있습니다. 모델을 학습할 때 해당 매개 변수에 대한 값을 제공해야 합니다. 학습된 모델의 효율성은 선택한 모델 매개 변수에 따라 달라집니다. 최적 매개 변수 집합을 찾는 프로세스를 모델 선택이라고 합니다.

모델 선택을 수행하는 방법에는 여러 가지가 있습니다. 기계 학습에서 교차 유효성 검증은 모델 선택에 가장 널리 사용되는 방법 중 하나이며 Machine Learning Studio(클래식)의 기본 모델 선택 메커니즘입니다. Machine Learning Studio(클래식)는 R과 Python을 모두 지원하므로 R 또는 Python을 사용하여 항상 고유한 모델 선택 메커니즘을 구현할 수 있습니다.

최상의 매개 변수 집합을 찾는 프로세스에는 다음 네 가지 단계가 있습니다.

  1. 매개 변수 공간 정의: 알고리즘의 경우 먼저 고려할 정확한 매개 변수 값을 결정합니다.
  2. 교차 유효성 검사 설정 정의: 데이터 세트에 대한 교차 유효성 검사 접기를 선택하는 방법을 결정합니다.
  3. 메트릭 정의: 정확도, 루트 평균 제곱 오차, 정밀도, 재현율 또는 f 점수와 같은 최상의 매개 변수 집합을 결정하는 데 사용할 메트릭을 결정합니다.
  4. 학습, 평가 및 비교: 매개 변수 값의 고유한 각 조합에 대해 정의한 오류 메트릭에 따라 교차 유효성 검사가 수행됩니다. 평가 및 비교 후에 최고 성능 모델을 선택할 수 있습니다.

다음 이미지는 Azure Machine Learning Studio(클래식)에서 이 작업을 수행하는 방법을 보여 줍니다.

최상의 매개 변수 집합 찾기

매개 변수 공간 정의

모델 초기화 단계에서 매개 변수 집합을 정의할 수 있습니다. 모든 기계 학습 알고리즘의 매개 변수 창에는 단일 매개 변수 및 매개 변수 범위두 가지 트레이너 모드가 있습니다. 매개 변수 범위 모드를 선택합니다. 매개 변수 범위 모드에서는 각 매개 변수에 대해 여러 값을 입력할 수 있습니다. 텍스트 상자에 쉼표로 구분된 값을 입력할 수 있습니다.

2클래스 향상된 의사 결정 트리, 단일 매개 변수

또는 범위 작성기를 사용하여 생성할 그리드의 최대 및 최소 지점과 총 점 수를 정의할 수 있습니다. 기본적으로 매개 변수 값은 선형 눈금으로 생성됩니다. 그러나 로그 배율을 선택하면 값이 로그 눈금에서 생성됩니다(즉, 인접 지점의 비율은 차이 대신 일정함). 정수 매개 변수의 경우 하이픈을 사용하여 범위를 정의할 수 있습니다. 예를 들어 "1-10"은 1에서 10 사이의 모든 정수가 매개 변수 집합을 형성한다는 것을 의미합니다. 혼합 모드도 지원됩니다. 예를 들어, '1-10, 20, 50'으로 설정된 매개 변수는 정수 1~10, 20, 50을 포함합니다.

2클래스 향상된 의사 결정 트리, 매개 변수 범위

교차 유효성 검사 접기 정의

파티션 및 샘플 모듈을 사용하여 데이터에 접기를 임의로 할당할 수 있습니다. 모듈에 대한 다음 샘플 구성에는 다섯 번 접기를 정의하고 샘플 인스턴스에 접기 수를 임의로 할당합니다.

파티션 및 샘플

메트릭 정의

모델 하이퍼 매개 변수 튜닝 모듈은 주어진 알고리즘 및 데이터 세트에 가장 적합한 매개 변수 집합을 경험적으로 선택할 수 있는 지원을 제공합니다. 모델 학습과 관련된 다른 정보 외에도 이 모듈의 속성 창에는 최상의 매개 변수 집합을 결정하기 위한 메트릭이 포함되어 있습니다. 분류 및 회귀 알고리즘 각각에 대한 두 개의 드롭다운 목록 상자가 있습니다. 고려 중인 알고리즘이 분류 알고리즘인 경우 회귀 메트릭은 무시되고 그 반대의 경우도 마찬가지입니다. 이 특정 예제에서는 메트릭은 정확도입니다.

스윕 매개 변수

학습, 평가 및 비교

동일한 모델 하이퍼 매개 변수 조정 모듈은 매개 변수 집합에 해당하는 모든 모델을 학습시키고, 다양한 메트릭을 평가한 다음, 선택한 메트릭에 따라 가장 잘 학습된 모델을 만듭니다. 이 모듈에는 다음 두 개의 필수 입력이 있습니다.

  • 학습되지 않은 학습자
  • 데이터 세트

모듈에는 선택적 데이터 세트 입력도 있습니다. 접기 정보와 함께 데이터 세트를 필수 데이터 세트 입력에 연결합니다. 데이터 세트에 접기 정보가 할당되지 않은 경우 기본적으로 10배 교차 유효성 검사가 자동으로 실행됩니다. 접기 할당이 수행되지 않고 선택적 데이터 세트 포트에 유효성 검사 데이터 세트가 제공되면 학습 테스트 모드가 선택되고 첫 번째 데이터 세트가 각 매개 변수 조합에 대한 모델을 학습하는 데 사용됩니다.

향상된 의사 결정 트리 분류자

그런 다음 유효성 검사 데이터 세트에서 모델을 평가합니다. 모듈의 왼쪽 출력 포트는 다른 메트릭을 매개 변수 값의 함수로 표시합니다. 올바른 출력 포트는 선택한 메트릭에 따라 가장 성능이 좋은 모델에 해당하는 학습된 모델을 제공합니다(이 경우 정확 도).

유효성 검사 데이터 세트

오른쪽 출력 포트를 시각화하여 선택한 정확한 매개 변수를 확인할 수 있습니다. 이 모델은 학습된 모델로 저장한 후 테스트 집합을 채점하거나 운영화된 웹 서비스에서 사용할 수 있습니다.