승격된 의사 결정 트리 회귀 구성 요소
이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
이 구성 요소를 사용하여 승격을 사용하는 회귀 트리의 앙상블을 만듭니다. 상승 은 각 트리가 이전 트리에 종속된다는 것을 의미합니다. 알고리즘은 선행 트리의 잔차를 맞추는 방식으로 학습합니다. 따라서 의사 결정 트리 앙상블에서 증폭하면 커버리지가 적을 위험이 적어 정확도가 향상되는 경향이 있습니다.
이 구성 요소는 LightGBM 알고리즘을 기반으로 합니다.
이 회귀 방법은 감독 학습 방법이므로 레이블이 지정된 데이터 세트가 필요합니다. 레이블 열에는 숫자 값이 포함되어야 합니다.
참고 항목
숫자 변수를 사용하는 데이터 집합에만 이 구성 요소를 사용합니다.
모델을 정의한 후 모델 학습을 사용하여 학습합니다.
향상된 회귀 트리에 대한 자세한 정보
부스팅은 모음, 임의 포리스트 등과 함께 앙상블 모델을 만들기 위한 몇 가지 클래식 방법 중 하나입니다. Azure Machine Learning에서 향상된 의사 결정 트리는 MART 그라데이션 증폭 알고리즘의 효율적인 구현을 사용합니다. 그라데이션 승격은 회귀 문제에 대한 기계 학습 기술입니다. 미리 정의된 손실 함수를 사용하여 각 단계의 오류를 측정하고 다음 단계에서 수정하는 단계별 방식으로 각 회귀 트리를 빌드합니다. 따라서 예측 모델은 실제로 약한 예측 모델의 앙상블입니다.
회귀 문제에서 승격은 일련의 트리를 단계별로 빌드한 다음, 임의의 미분 가능한 손실 함수를 사용하여 최적의 트리를 선택합니다.
자세한 내용은 다음 문서를 참조하세요.
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
그라데이션 부스팅에 대한 이 Wikipedia 문서는 승격된 트리에 대한 몇 가지 배경을 제공합니다.
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft Research: RankNet에서 LambdaRank, LambdaMART까지: 개요입니다. J.C. Burges 작성.
그라데이션 부스팅 방법은 적절한 손실 함수를 사용하여 회귀로 줄여 분류 문제에도 사용할 수 있습니다. 분류 작업에 대한 향상된 트리 구현에 대한 자세한 내용은 2클래스 향상된 의사 결정 트리를 참조 하세요.
향상된 의사 결정 트리 회귀를 구성하는 방법
승격된 의사 결정 트리 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 회귀 범주의 초기화, 기계 학습에서 찾을 수 있습니다.
트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.
단일 매개 변수: 모델을 구성하는 방법을 알고 있는 경우 이 옵션을 선택하고 특정 값 집합을 인수로 제공합니다.
매개 변수 범위: 최적 매개 변수를 잘 모르는 상태에서 매개 변수 스윕을 실행하려면 이 옵션을 선택합니다. 반복할 값의 범위를 선택하면 모델 하이퍼 매개 변수 튜닝이 제공된 설정의 가능한 모든 조합을 반복하여 최적의 결과를 생성하는 하이퍼 매개 변수를 확인합니다.
트리당 최대 잎 수: 모든 트리에서 만들 수 있는 터미널 노드(리프)의 최대 수를 나타냅니다.
이 값을 늘리면 잠재적으로 트리의 크기를 늘리고 정밀도를 향상시켜 과잉 맞춤 및 학습 시간이 길어질 위험이 있습니다.
리프 노드당 최소 샘플 수: 트리에서 터미널 노드(리프)를 만드는 데 필요한 최소 사례 수를 표시합니다.
이 값을 늘리면 새 규칙을 만들기 위한 임계값이 증가합니다. 예를 들어 기본값이 1이면 단일 사례라도 새 규칙을 만들 수 있습니다. 값을 5로 늘리면 학습 데이터에 동일한 조건을 충족하는 5개 이상의 사례가 포함되어야 합니다.
학습 속도: 학습하는 동안 단계 크기를 정의하는 0에서 1 사이의 숫자를 입력합니다. 학습 속도는 학습자가 최적 솔루션에 얼마나 빠르게 또는 느리게 수렴하는지 결정합니다. 단계 크기가 너무 크면 최적 솔루션을 초과할 수 있습니다. 단계 크기가 너무 작으면 학습이 최상의 솔루션에 수렴하는 데 더 오래 걸립니다.
생성된 트리 수: 앙상블에서 만들 의사 결정 트리의 총 수를 나타냅니다. 더 많은 의사 결정 트리를 만들면 잠재적으로 더 나은 범위를 얻을 수 있지만 학습 시간이 증가합니다.
값을 1로 설정하는 경우 그러나 하나의 트리만 생성되고(초기 매개 변수 집합이 있는 트리) 더 이상 반복이 수행되지 않습니다.
난수 시드: 임의의 시드 값으로 사용할 음수가 아닌 정수(선택 사항)를 입력합니다. 시드를 지정하면 동일한 데이터와 매개 변수를 사용하는 실행에서 재현 가능성이 보장됩니다.
기본적으로 임의 시드는 0으로 설정됩니다. 즉, 시스템 클록에서 초기 시드 값을 가져옵니다.
모델을 학습시킵니다.
트레이너 모드 만들기를 단일 매개 변수로 설정하는 경우 태그가 지정된 데이터 세트와 모델 학습 구성 요소를 연결합니다.
트레이너 만들기 모드를 매개 변수 범위로 설정하는 경우 태그가 지정된 데이터 세트를 연결하고 모델 하이퍼 매개 변수 조정을 사용하여 모델을 학습시킵니다.
참고 항목
모델 학습에 매개 변수 범위를 전달하는 경우 단일 매개 변수 목록의 기본값만 사용합니다.
매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수의 설정 범위를 예상할 때 해당 값을 무시하고 학습자의 기본값을 사용합니다.
매개 변수 범위 옵션을 선택하고 임의 매개 변수에 대해 단일 값을 입력하면 다른 매개 변수가 값 범위에서 변경되는 경우에도 지정한 단일 값이 스윕 전체에서 사용됩니다.
파이프라인을 제출합니다.
결과
학습 완료 후:
점수 매기기 모델을 사용하려면 모델 학습을 모델 점수 매기기로 연결하여 새 입력 예제의 값을 예측합니다.
학습된 모델의 스냅샷을 저장하려면 학습된 모델의 오른쪽 패널에서 출력 탭을 선택하고 데이터 세트 등록 아이콘을 클릭합니다. 학습된 모델의 복사본은 구성 요소 트리에 구성 요소로 저장되며 파이프라인의 연속 실행에서 업데이트되지 않습니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.