다음을 통해 공유


다중 클래스 의사 결정 포리스트

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

의사 결정 포리스트 알고리즘을 사용하여 다중 클래스 분류 모델 만들기

범주: Machine Learning/모델 초기화/분류

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 다중 클래스 의사 결정 포리스트 모듈을 사용하여 의사 결정 포리스트 알고리즘을 기반으로 기계 학습 모델을 만드는 방법을 설명합니다. 의사 결정 포리스트는 태그가 지정된 데이터에서 학습하면서 일련의 의사 결정 트리를 매우 빠르게 빌드하는 앙상블 모델입니다.

의사 결정 포리스트에 대한 자세한 정보

의사 결정 포리스트 알고리즘은 분류를 위한 앙상블 학습 방법입니다. 이 알고리즘은 여러 의사 결정 트리를 빌드한 다음, 가장 인기 있는 출력 클래스에서 ‘투표’하는 방식으로 작동합니다. 투표는 분류 의사 결정 포리스트의 각 트리가 레이블의 정규화되지 않은 빈도 히스토그램을 출력하는 집계의 한 가지 형태입니다. 집계 프로세스는 이러한 히스토그램을 합산하고 결과를 정규화하여 각 레이블에 대한 "확률"을 가져옵니다. 앙상블의 최종 결정에서 예측 신뢰도가 높은 트리에 더 큰 가중치가 주어집니다.

의사 결정 트리는 일반적으로 비파라메트릭 모델이며 이는 의사 결정 트리가 다양한 방식으로 분포된 데이터를 지원함을 의미합니다. 각 트리에서는 각 클래스에 대해 간단한 테스트 시퀀스를 실행하여 리프 노드(의사 결정)에 도달할 때까지 트리 구조 수준을 늘립니다.

의사 결정 트리를 사용하는 경우 많은 이점이 제공됩니다.

  • 비선형 의사 결정 경계를 표시할 수 있습니다.
  • 학습 및 예측 중에 계산과 메모리 사용량 측면에서 효율적입니다.
  • 통합 기능 선택 및 분류를 수행합니다.
  • 잡음 기능이 있는 경우 탄력적입니다.

Machine Learning Studio(클래식)의 의사 결정 포리스트 분류자는 의사 결정 트리의 앙상블로 구성됩니다. 일반적으로 앙상블 모델은 단일 의사 결정 트리에 비해 적용 범위가 넓고 정확도가 높습니다. 자세한 내용은 의사 결정 트리를 참조하세요.

다중 클래스 의사 결정 포리스트를 구성하는 방법

최상의 매개 변수를 잘 모르는 경우 모델 하이퍼 매개 변수 조정 모듈을 사용하여 여러 모델을 학습 및 테스트하고 최적의 매개 변수를 찾는 것이 좋습니다.

  1. Studio(클래식)에서 실험에 다중 클래스 의사 결정 포리스트 모듈을 추가합니다. 이 모듈은 Machine Learning, 모델 초기화, 분류 아래에서 찾을 수 있습니다.

  2. 모듈을 두 번 클릭하여 속성 창을 엽니다.

  3. 재샘플링 방법의 경우 개별 트리를 만드는 데 사용되는 방법을 선택합니다. 모음 만들기 또는 복제 중에서 선택할 수 있습니다.

    • 모음 만들기: 모음 만들기를 ‘부트스트랩 집계’라고도 합니다. 이 방법에서는 원본 데이터 세트의 크기가 될 때까지 원본 데이터 세트를 임의로 샘플링하여 만든 새 샘플에서 각 트리가 성장하도록 합니다. 모델의 출력은 집계의 한 가지 형식인 ‘투표’로 결합됩니다. 자세한 내용은 부트스트랩 집계에 대한 Wikipedia 항목을 참조하세요.

    • 복제: 복제에서 각 트리는 정확히 동일한 입력 데이터에 대해 학습됩니다. 각 트리 노드에 사용되는 분할 조건자의 결정은 임의로 유지되어 다양한 트리를 생성합니다.

    지침은 다중 클래스 의사 결정 포리스트 모델 구성 방법 섹션을 참조하세요.

  4. 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델을 구성하는 방법을 알고 있으며 값 세트를 인수로 제공하는 경우 이 옵션을 선택합니다.

    • 매개 변수 범위: 최상의 매개 변수를 잘 모르고 매개 변수 스윕을 사용하려는 경우 이 옵션을 사용합니다.

  5. 의사 결정 트리 수: 앙상블에서 만들 수 있는 최대 의사 결정 트리 수를 입력합니다. 더 많은 의사 결정 트리를 만들어 적용 범위를 확대할 수 있지만, 학습 시간이 늘어날 수 있습니다.

    또한 이 값은 학습된 모델을 시각화할 때 결과에 표시되는 트리 수를 제어합니다. 단일 트리를 보거나 인쇄하려면 값을 1로 설정할 수 있습니다. 그러나 이는 하나의 트리만 생성될 수 있고(초기 매개 변수 집합이 있는 트리) 더 이상 반복이 수행되지 않음을 의미합니다.

  6. 의사 결정 트리의 최대 깊이: 의사 결정 트리의 최대 깊이를 제한하는 숫자를 입력합니다. 트리의 수준을 늘리면 정밀도는 높아질 수 있지만 학습 시간이 더 길어지고 과잉 맞춤이 발생할 수 있습니다.

  7. 노드당 임의 분할 수: 트리의 각 노드를 빌드하는 경우 사용할 분할 수를 입력합니다. ‘분할’은 트리(노드)의 각 수준에 있는 특성이 임의로 분할됨을 의미합니다.

  8. 리프 노드당 최소 샘플 수: 트리에서 터미널 노드(리프)를 만드는 데 필요한 최소 케이스 수를 나타냅니다. 이 값을 늘려 새 규칙을 작성하기 위한 임계값을 늘립니다.

    예를 들어, 기본값이 1이면 단일 사례만으로도 새 규칙을 하나 작성할 수 있습니다. 값을 5로 늘리면 학습 데이터에 동일한 조건을 만족하는 사례가 다섯 개 이상 있어야 합니다.

  9. 범주 기능에 알 수 없는 값 허용: 학습 또는 유효성 검사 집합에서 알 수 없는 값에 대한 그룹을 만들려면 이 옵션을 선택합니다. 알려진 값에 대해서는 모델의 정확도가 떨어질 수 있지만 새 (알 수 없는) 값은 더 잘 예측할 수 있습니다.

    이 옵션을 선택 취소하면 모델은 학습 데이터에 있는 값만 수락할 수 있습니다.

  10. 레이블이 지정된 datset 및 학습 모듈 중 하나를 커넥트.

    • 트레이너 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 모듈을 사용합니다.

    • 트레이너 모드 만들기 옵션을 매개 변수 범위로 설정하면 모델 하이퍼 매개 변수 조정 모듈을 사용합니다. 이 옵션을 사용하면 트레이너가 설정의 여러 조합을 반복하고 최상의 모델을 생성하는 매개 변수 값을 결정할 수 있습니다.

    참고

    모델 학습에 매개 변수 범위를 전달하면 매개 변수 범위 목록의 첫 번째 값만 사용됩니다.

    단일 매개 변수 값 세트를 모델 하이퍼 매개 변수 튜닝 모듈에 전달하는 경우 각 매개 변수에 대한 설정 범위를 요청할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    매개 변수 범위 옵션을 선택하고 임의 매개 변수의 단일 값을 입력하는 경우 다른 매개 변수가 값 범위에서 변경되더라도 지정한 단일 값은 스윕 전체에서 사용됩니다.

  11. 실험을 실행합니다.

결과

학습 완료 후 다음이 수행됩니다.

  • 각 반복에서 만든 트리를 보려면 모델 학습 모듈을 마우스 오른쪽 단추로 클릭하고 시각화할 학습된 모델을 선택합니다. 모델 하이퍼 매개 변수 조정을 사용하는 경우 모듈을 마우스 오른쪽 단추로 클릭하고 학습된 최상의 모델을 선택하여 최상의 모델을 시각화합니다. 각 노드에 대한 규칙을 보려면 각 트리를 클릭하여 분할로 드릴다운합니다.

기계 학습에서 의사 결정 포리스트를 사용하는 방법의 예는 Azure AI 갤러리를 참조하세요.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

분류 결정 포리스트의 각 트리는 레이블의 정규화되지 않은 빈도 히스토그램을 출력합니다. 집계는 이러한 히스토그램을 합산하고 정규화하여 각 레이블에 대한 "확률"을 가져오는 것입니다. 이러한 방식으로 예측 신뢰도가 높은 트리는 앙상블의 최종 결정에 더 큰 가중치를 가집니다.

복제 옵션을 사용하여 학습 프로세스에 대한 자세한 내용은 다음을 참조하세요.

다중 클래스 의사 결정 포리스트 모델을 구성하는 방법

너무 적은 데이터 또는 학습 시간 제한과 같은 시나리오를 수용하도록 모듈이 구성된 방식을 변경할 수 있습니다.

제한된 학습 시간

학습 집합에 인스턴스 수가 많은데 모델 학습에 사용할 수 있는 시간이 제한된 경우 다음 옵션을 사용하세요.

  • 더 적은 수의 의사 결정 트리(예: 5-10개)를 사용하여 의사 결정 포리스트를 만듭니다.
  • 다시 만들기에 복제 옵션을 사용합니다.
  • 노드당 더 적은 수의 임의 분할(예: 100개 미만)을 지정합니다.

제한된 학습 집합

학습 집합에 포함되는 인스턴스 수가 제한되는 경우에는 다음 옵션을 사용할 수 있습니다.

  • 더 많은 수의 의사 결정 트리(예: 20개 이상)를 사용하여 의사 결정 포리스트를 만듭니다.
  • 다시 만들기에 모음 만들기 옵션을 사용합니다.
  • 노드당 더 많은 수의 임의 분할(예: 1,000개 이상)을 지정합니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
다시 만들기 방법 모두 ResamplingMethod 모음 만들기 리샘플링 방법 선택: 배깅 또는 복제
의사 결정 트리의 수 >=1 정수 8 앙상블에서 만들 의사 결정 트리의 수를 지정합니다.
의사 결정 트리의 최대 수준 >=1 정수 32 만들 수 있는 의사 결정 트리의 최대 수준을 지정합니다.
노드당 임의 분할의 수 >=1 정수 128 노드당 생성되는 분할의 수를 지정합니다. 이러한 분할에서 최적의 분할이 선택됩니다.
리프 노드당 최소 샘플 수 >=1 정수 1 리프 노드를 생성하는 데 필요한 학습 샘플의 최소 수를 지정합니다.
범주 기능에서 알 수 없는 값 허용 모두 부울 True 기존 범주 기능의 알 수 없는 값을 새 추가 기능에 매핑할 수 있는지 여부를 나타냅니다.

출력

Name 유형 설명
학습되지 않은 모델 ILearner 인터페이스 학습되지 않은 다중 클래스 분류 모델입니다.

참고 항목

분류
2클래스 의사 결정 포리스트
의사 결정 포리스트 회귀
전체 모듈 목록