다음을 통해 공유


다중 클래스 의사 결정 정글

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

의사 결정 정글 알고리즘을 사용하여 다중 클래스 분류 모델 만들기

범주: Machine Learning/모델 초기화/분류

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 다중 클래스 의사 결정 정글 모듈을 사용하여 의사 결정 정글이라는 감독 학습 알고리즘을 기반으로 하는 기계 학습 모델을 만드는 방법을 설명합니다.

이 모듈을 사용하여 모델 및 해당 매개 변수를 정의한 다음, 레이블이 지정된 학습 데이터 집합을 연결하여 학습 모듈 중 하나를 사용하여 모델을 학습시킵니다. 학습된 모델을 사용하여 여러 값이 있는 대상을 예측할 수 있습니다.

의사 결정 정글에 대한 자세한 정보

의사 결정 정글은의사 결정 포리스트의 최근 확장입니다. 의사 결정 정글은 의사 결정 DAG(방향성 비순환 그래프) 앙상블로 구성됩니다.

의사 결정 정글을 사용하는 경우의 이점은 다음과 같습니다.

  • 의사 결정 DAG 사용 시에는 트리 분기를 병합할 수 있으므로 대개 메모리 공간이 더 작으며 의사 결정 트리에 비해 일반화 성능이 우수합니다. 단, 교육 시간은 다소 길어질 수 있습니다.

  • 의사 결정 정글은 비선형 의사 결정 경계를 나타낼 수 있는 비파라메트릭 모델입니다.

  • 통합 기능 선택 및 분류를 수행하며 불필요한 데이터가 많은 기능이 있는 경우 복원이 가능합니다.

이 기계 학습 알고리즘의 연구에 대한 자세한 내용은 의사 결정 정글: 분류를 위한 컴팩트하고 풍부한 모델 (다운로드 가능한 PDF)을 참조하세요.

다중 클래스 의사 결정 정글 모델을 구성하는 방법

  1. Studio(클래식)에서 실험에 다중 클래스 의사 결정 정글 모듈을 추가합니다. 이 모듈은 Machine Learning, 모델 초기화, 분류 아래에서 찾을 수 있습니다.

  2. 모듈을 두 번 클릭하여 속성 창을 엽니다.

  3. 재샘플링 메서드는 모음 또는 복제 중에서 여러 트리를 만드는 방법을 선택합니다.

    • 배깅: 부트스트랩 집계라고도 하는 배깅을 사용하려면 이 옵션을 선택합니다.

      의사 결정 포리스트의 각 트리는 예측을 통해 가우스 분포를 출력합니다. 집계는 처음 두 순간이 개별 나무에 의해 반환 된 모든 가우스를 결합하여 주어진 가우스의 혼합물의 순간과 일치하는 가우스를 찾는 것입니다.

    • 복제: 복제를 사용하려면 이 옵션을 선택합니다. 이 메서드에서 각 트리는 정확히 동일한 입력 데이터에 대해 학습됩니다. 각 트리 노드에 사용되는 분할 조건자의 결정은 임의로 유지되므로 다양한 트리가 만들어집니다.

  4. 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델을 구성하는 방법을 알고 있는 경우 이 옵션을 사용합니다.

    • 매개 변수 범위: 최상의 매개 변수를 잘 모르고 매개 변수 스윕을 사용하려는 경우 이 옵션을 사용합니다.

  5. 의사 결정 DAG 수: 앙상블에서 만들 수 있는 최대 그래프 수를 나타냅니다.

  6. 의사 결정 DAG의 최대 깊이: 각 그래프의 최대 깊이를 지정합니다.

  7. 의사 결정 DAG의 최대 너비: 각 그래프의 최대 너비를 지정합니다.

  8. 의사 결정 DAG 계층당 최적화 단계 수: 각 DAG를 빌드할 때 수행할 데이터 반복 수를 나타냅니다.

  9. 범주 기능에 알 수 없는 값 허용: 테스트 또는 유효성 검사 데이터에서 알 수 없는 값에 대한 그룹을 만들려면 이 옵션을 선택합니다. 알려진 값에 대해서는 모델의 정확도가 떨어질 수 있지만 새 (알 수 없는) 값은 더 잘 예측할 수 있습니다.

    이 옵션을 선택 취소하면 모델은 학습 데이터에 있던 값만 수락할 수 있습니다.

  10. 레이블이 지정된 데이터 세트와 학습 모듈 중 하나를 커넥트.

    • 트레이너 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 모듈을 사용합니다.

    • 트레이너 모드 만들기매개 변수 범위로 설정한 경우 모델 하이퍼 매개 변수 튜닝 모듈을 사용합니다. 이 옵션을 사용하면 알고리즘이 제공한 설정의 여러 조합을 반복하고 최상의 모델을 생성하는 값의 조합을 결정합니다.

    참고

    모델 학습에 매개 변수 범위를 전달하면 매개 변수 범위 목록의 첫 번째 값만 사용됩니다.

    단일 매개 변수 값 세트를 모델 하이퍼 매개 변수 튜닝 모듈에 전달하는 경우 각 매개 변수에 대한 설정 범위를 요청할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    매개 변수 범위 옵션을 선택하고 임의 매개 변수의 단일 값을 입력하는 경우 다른 매개 변수가 값 범위에서 변경되더라도 지정한 단일 값은 스윕 전체에서 사용됩니다.

  11. 실험을 실행합니다.

결과

학습 완료 후 다음이 수행됩니다.

  • 점수 매기기를 위해 모델을 사용하려면 모델을 점수 매기기 모델에 연결하여 새 입력 예제의 값을 예측합니다.

기계 학습에서 의사 결정 포리스트를 사용하는 방법의 예는 Azure AI 갤러리를 참조하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

복제 옵션을 사용하여 학습 프로세스에 대한 자세한 내용은 다음을 참조하세요.

사용 팁

데이터가 제한되어 있거나 모델 학습에 소요된 시간을 최소화하려면 다음 권장 사항을 시도해 보세요.

제한된 학습 집합

학습 집합의 인스턴스 수가 제한되는 경우 다음을 수행합니다.

  • 많은 수의 의사 결정 DAG(예: 20개 이상)를 사용하여 의사 결정 정글을 만듭니다.
  • 다시 만들기에 모음 만들기 옵션을 사용합니다.
  • DAG 계층당 많은 수의 최적화 단계(예: 10,000개 이상)를 지정합니다.

제한된 학습 시간

학습 집합에 인스턴스 수가 많으며 학습 시간이 제한되는 경우 다음을 수행합니다.

  • 더 적은 수의 의사 결정 DAG(예: 5-10)를 사용하는 의사 결정 정글을 만듭니다.
  • 다시 만들기에 복제 옵션을 사용합니다.
  • DAG 계층당 더 적은 수의 최적화 단계(예: 2,000개 미만)를 지정합니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
다시 만들기 방법 모두 ResamplingMethod 모음 만들기 다시 만들기 방법을 선택합니다.
의사 결정 DAG의 수 >=1 정수 8 앙상블에서 만들 수 있는 의사 결정 그래프의 수를 지정합니다.
의사 결정 DAG의 최대 수준 >=1 정수 32 앙상블에서 만들려는 의사 결정 그래프의 최대 수준을 지정합니다.
의사 결정 DAG의 최대 너비 >=8 정수 128 앙상블에서 만들려는 의사 결정 그래프의 최대 너비를 지정합니다.
의사 결정 DAG 계층당 최적화 단계 수 >=1000 정수 2048 의사 결정 그래프에서 각 수준의 최적화에 사용할 단계 수를 지정합니다.
범주 기능에서 알 수 없는 값 허용 모두 부울 True 기존 범주 기능의 알 수 없는 값을 새 추가 기능에 매핑할 수 있는지 여부를 나타냅니다.

출력

Name 유형 설명
학습되지 않은 모델 ILearner 인터페이스 학습되지 않은 다중 클래스 분류 모델입니다.

참고 항목

2클래스 의사 결정 정글
분류
전체 모듈 목록