의사 결정 트리 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)
이 항목에서는 Microsoft 의사 결정 트리 알고리즘을 사용하는 모델만의 마이닝 모델 콘텐츠에 대해 설명합니다. 모든 모델 유형의 마이닝 모델 콘텐츠에 대한 일반적인 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오. Microsoft 의사 결정 트리 알고리즘은 매우 다양한 함수로 모델을 만들 수 있는 하이브리드 알고리즘이라는 사실을 기억해야 합니다. 의사 결정 트리는 연결, 규칙 또는 선형 회귀를 나타낼 수 있습니다. 트리의 구조는 기본적으로 동일하지만 정보를 해석하는 방법은 모델을 만든 목적에 따라 달라집니다.
의사 결정 트리 모델의 구조 이해
의사 결정 트리 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드가 있습니다. 이 부모 노드 아래에는 선택한 예측 가능 특성을 나타내는 독립적인 트리가 있습니다. 예를 들어 고객이 제품을 구매할지 여부를 예측하도록 의사 결정 트리 모델을 설정하고 성별 및 수입에 대한 입력을 제공할 경우, 해당 모델은 성별 및 수입과 관련된 조건에 따라 나뉘는 여러 분기를 사용하여 구매 특성에 대한 단일 트리를 만듭니다.
그러나 그 후에 고객 보상 프로그램 참여에 대한 별도의 예측 가능한 특성을 추가하면 해당 알고리즘은 부모 노드 아래에 두 개의 개별 트리를 만듭니다. 한 트리에는 구매에 대한 분석이 들어 있고 다른 트리에는 고객 보상 프로그램에 대한 분석이 들어 있습니다. 의사 결정 트리 알고리즘을 사용하여 연결 모델을 만드는 경우 이 알고리즘은 예측할 각 제품에 대해 별도의 트리를 만들며, 이 트리에는 대상 특성을 선택하는 데 영향을 주는 다른 모든 제품 조합이 포함됩니다.
[!참고]
모델에 여러 개의 트리가 포함되어 있는 경우 Microsoft 트리 뷰어에서는 한 번에 하나의 트리만 볼 수 있습니다. 그러나 일반 콘텐츠 트리 뷰어에서는 동일한 모델의 모든 트리가 동시에 표시됩니다.
예측 가능한 각 특성의 트리에는 선택한 입력 열이 예측 가능한 해당 특성의 결과에 미친 영향을 설명하는 정보가 들어 있습니다. 각 트리의 맨 처음에는 예측 가능한 특성이 포함된 노드(NODE_TYPE = 9)가 있고 그 다음에는 입력 특성을 나타내는 일련의 노드(NODE_TYPE = 10)가 있습니다. 특성은 사례 수준 열이나 중첩 테이블 열의 값에 해당합니다. 중첩 테이블 열의 값은 일반적으로 중첩 테이블의 Key 열에 있는 값입니다.
내부 및 리프 노드는 분할 조건을 나타냅니다. 동일한 특성에 따라 트리가 여러 번 분할될 수 있습니다. 예를 들어 TM_DecisionTree 모델은 [Yearly Income] 및 [Number of Children]에 따라 분할된 다음 트리의 보다 하위 수준에서 [Yearly Income]에 따라 다시 분할될 수 있습니다.
Microsoft 의사 결정 트리 알고리즘에는 트리의 일부 또는 전체에 있는 선형 회귀가 포함될 수도 있습니다. 모델링하려는 특성이 연속 숫자 데이터 형식인 경우 해당 모델은 특성 간의 관계를 선형으로 모델링할 수 있는 모든 위치에서 회귀 트리 노드(NODE_TYPE = 25)를 만들 수 있습니다. 이 경우 노드에는 회귀 수식이 포함됩니다.
그러나 예측 가능한 특성에 불연속 값이 있거나 숫자 값이 버킷팅 또는 분할된 경우 해당 모델은 항상 분류 트리(NODE_TYPE =2)를 만듭니다. 분류 트리에는 특성의 각 값에 대한 여러 개의 분기 또는 내부 트리 노드(NODE_TYPE =3)가 있을 수 있습니다. 그러나 특성의 각 값에 따른 분할은 필요하지 않습니다.
Microsoft 의사 결정 트리 알고리즘에서는 연속 데이터 형식을 입력으로 사용할 수 없으므로 열에 연속 숫자 데이터 형식이 있는 경우 해당 값은 분할됩니다. 알고리즘은 모든 연속 특성에 대해 분할 지점에서 해당 알고리즘 방식의 분할을 수행합니다.
[!참고]
Analysis Services에서는 연속 특성을 버킷팅하기 위한 방법을 자동으로 선택합니다. 그러나 사용자가 마이닝 구조 열의 내용 유형을 Discretized로 설정한 다음 DiscretizationBucketCount 또는 DiscretizationMethod 속성을 설정하여 입력의 연속 값이 분할되는 방식을 제어할 수도 있습니다.
의사 결정 트리 모델에 대한 모델 콘텐츠
이 섹션에서는 의사 결정 트리 모델과 특별히 관련된 마이닝 모델 콘텐츠 열에 대한 세부 정보 및 예만 제공합니다. 스키마 행 집합의 범용 열에 대한 자세한 내용은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.
MODEL_CATALOG
모델이 저장되는 데이터베이스의 이름입니다.MODEL_NAME
모델의 이름입니다.ATTRIBUTE_NAME
이 노드에 해당하는 특성의 이름입니다.NODE_NAME
항상 NODE_UNIQUE_NAME과 같습니다.NODE_UNIQUE_NAME
모델 내의 노드에 대한 고유 식별자입니다. 이 값은 변경할 수 없습니다.의사 결정 트리 모델의 경우 고유 이름은 다음 규칙을 따릅니다. 이 규칙은 일부 알고리즘에는 적용되지 않습니다.
특정 노드의 자식 노드에는 모두 동일한 16진수 접두사가 있고 그 다음에는 부모 내의 자식 노드 시퀀스를 나타내는 16진수가 하나 더 있습니다. 이 접두사를 통해 경로를 유추할 수 있습니다.
NODE_TYPE
의사 결정 트리 모델에서는 다음과 같은 노드 유형이 만들어집니다.노드 유형
설명
1(모델)
모델의 루트 노드입니다.
2(트리)
모델의 분류 트리에 대한 부모 노드입니다. "All"이라는 레이블이 표시됩니다.
3(내부)
내부 분기의 헤드로서, 분류 트리 또는 회귀 트리 내에 있습니다.
4(분포)
리프 노드로서, 분류 트리 또는 회귀 트리 내에 있습니다.
25(회귀 트리)
모델 내에 있는 회귀 트리의 부모 노드입니다. "All"이라는 레이블이 표시됩니다.
NODE_CAPTION
표시 이름입니다.모델을 만들 때는 NODE_UNIQUE_NAME의 값이 자동으로 캡션으로 사용됩니다. 그러나 NODE_CAPTION의 값을 변경하여 클러스터의 표시 이름을 프로그래밍 방식으로 업데이트하거나 뷰어를 통해 업데이트할 수 있습니다. 캡션은 모델에서 자동으로 생성됩니다. 캡션의 내용은 모델 유형과 노드 유형에 따라 달라집니다.
의사 결정 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION에는 트리에서의 수준에 따라 서로 다른 정보가 포함됩니다. 자세한 내용과 예는 노드 캡션 및 노드 설명을 참조하십시오.
CHILDREN_CARDINALITY
노드에 있는 예상 자식 수입니다.부모 노드 모델링된 예측 가능한 특성의 수를 나타냅니다. 예측 가능한 각 특성에 대해 트리가 하나씩 만들어집니다.
트리 노드 각 트리의 All 노드는 대상 특성에 사용된 값의 수를 나타냅니다.
대상 특성이 불연속 특성이면 해당 값은 고유 값의 수에 Missing 상태에 대한 1을 더한 값과 같습니다.
예측 가능한 특성이 연속 특성이면 해당 값은 연속 특성을 모델링하는 데 사용된 버킷 수를 나타냅니다.
리프 노드 항상 0입니다.
PARENT_UNIQUE_NAME
노드 부모의 고유한 이름입니다. 루트 수준의 모든 노드에 대해서 NULL이 반환됩니다.NODE_DESCRIPTION
노드에 대한 설명입니다.의사 결정 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION에는 트리에서의 수준에 따라 서로 다른 정보가 포함됩니다.
자세한 내용과 예는 노드 캡션 및 노드 설명을 참조하십시오.
NODE_RULE
바로 위의 부모 노드에서 현재 노드까지의 경로를 설명하는 규칙의 XML 설명입니다.자세한 내용과 예는 노드 규칙 및 한계 규칙을 참조하십시오.
MARGINAL_RULE
모델 부모 노드에서 현재 노드까지의 경로를 설명하는 규칙의 XML 설명입니다.자세한 내용은 노드 규칙 및 한계 규칙을 참조하십시오.
NODE_PROBABILITY
이 노드와 관련된 확률입니다.자세한 내용은 확률을 참조하십시오.
MARGINAL_PROBABILITY
부모 노드에서 해당 노드에 도달할 확률입니다.자세한 내용은 확률을 참조하십시오.
NODE_DISTRIBUTION
노드의 확률 히스토그램을 포함하는 테이블입니다. 이 테이블의 정보는 예측 가능한 특성이 연속 변수인지 불연속 변수인지에 따라 달라집니다.모델 루트 노드 이 테이블은 비어 있습니다.
(All) 노드 모델 전체에 대한 요약을 포함합니다.
내부 노드 리프 노드에 대해 집계된 통계를 포함합니다.
리프 노드 경로의 모든 조건이 현재 리프 노드를 가리키는 경우 예측된 결과에 대한 지지도 및 확률을 포함합니다.
회귀 노드 입력과 예측 가능한 특성 간의 관계를 나타내는 회귀 수식을 포함합니다.
자세한 내용은 불연속 특성의 노드 분포 및 연속 특성의 노드 분포를 참조하십시오.
NODE_SUPPORT
이 노드를 지원하는 사례의 수입니다.MSOLAP_MODEL_COLUMN
예측 가능한 특성이 포함된 열을 나타냅니다.MSOLAP_NODE_SCORE
노드와 연관된 점수를 표시합니다. 자세한 내용은 노드 점수를 참조하십시오.MSOLAP_NODE_SHORT_CAPTION
표시용 레이블입니다.
주의
Naive Bayes 또는 신경망 모델에 있는 한계 통계 노드와 달리 의사 결정 트리 모델에는 모델 전체에 대한 통계를 저장하는 별도의 노드가 없습니다. 대신 이 모델은 예측 가능한 각 특성에 대해 별도의 트리를 만들며 이 트리의 최상위에는 (All) 노드가 있습니다. 각 트리는 서로 독립적입니다. 모델에 예측 가능한 특성이 하나만 있는 경우에는 트리가 하나뿐이므로 (All) 노드도 하나만 있습니다.
출력 특성을 나타내는 각 트리는 추가적으로 분할을 나타내는 내부 분기(NODE_TYPE = 3)로 세분화됩니다. 이러한 각 트리에는 대상 특성의 분포에 대한 통계가 들어 있습니다. 또한 각 리프 노드(NODE_TYPE = 4)에는 입력 특성과 해당 값을 설명하는 통계가 각 특성-값 쌍을 지원하는 사례 수와 함께 들어 있습니다. 따라서 의사 결정 트리의 분기에서는 원본 데이터를 쿼리하지 않고도 데이터의 확률 또는 분포를 쉽게 볼 수 있습니다. 트리의 각 수준은 반드시 바로 아래에 있는 자식 노드의 합계를 나타냅니다.
이러한 통계를 검색하는 방법에 대한 예는 의사 결정 트리 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.
의사 결정 트리 구조의 예
의사 결정 트리의 작동 방식을 이해하기 위해 AdventureWorks 자전거 구매 고객 시나리오와 같은 예를 살펴보십시오. 예측 가능한 특성이 고객 구매 기록이라고 가정하면 의사 결정 트리 알고리즘에서는 사용자가 제공한 모든 입력 중에서 자전거를 구매할 가능성이 있는 고객과 구매할 가능성이 없는 고객을 가장 효율적으로 검색하는 하나의 데이터 열을 찾으려고 합니다. 예를 들어 모델에서는 나이가 구매 행동을 가장 잘 나타내는 지표임을 찾아낼 수 있습니다. 특히 30세 이상의 고객은 자전거를 구매할 가능성이 매우 높고 다른 모든 고객은 구매 가능이 낮습니다. 이 시나리오에서 모델은 나이 특성에 대한 분할을 만듭니다. 즉, 트리는 두 개의 분기로 나뉩니다. 한 분기에는 30세 이상의 고객이 포함되고 다른 분기에는 30세 미만의 고객이 포함됩니다. 새 분기는 모델 구조에서 두 개의 새 내부 트리(NODE_TYPE = 3)로 표현됩니다.
각 분기에 대해 모델은 고객을 차별화하는 데 사용할 추가 특성을 계속해서 찾습니다. 데이터에 하위 고객 그룹을 계속 만들 수 있는 충분한 근거가 없으면 모델은 트리 작성을 중지합니다. 또한 모델은 분할의 적정성이나 값이 Null인지 아니면 누락되었는지 여부에 관계없이 노드의 사례 수가 너무 적어 계속할 수 없을 때마다 트리 작성을 중지합니다. 트리가 늘어나는 것을 일찌감치 중지하면 모델이 하나의 특정 데이터 집합에 너무 밀접하게 학습되는 것을 방지할 수 있습니다.
각 내부 트리 노드에는 현재 분류 결과에 대해 결과 분석을 제공하는 리프 노드가 포함됩니다. 예를 들어 Age >= 30 및 Gender = Male을 나타내는 내부 노드가 있을 수 있습니다. 이 그룹의 노드는 이 범주에서 제품을 구매한 고객 또는 구매하지 않은 고객의 수를 보여 줍니다. 예를 들어 분류 트리는 다음과 같은 트리로 분할될 수 있습니다.
내부 트리 |
분할 |
---|---|
Age >= 30 |
Age >= 30 and Gender = Male |
|
Age >= 30 and Gender = Female |
Age < 30 |
Age < 30 and Gender = Male |
|
Age < 30 and Gender = Female |
예측에 의사 결정 트리 모델을 사용할 경우 모델에서는 사용자가 제공한 특성을 인수로 사용하고 특성의 경로를 따라 트리의 하위 수준으로 이동합니다. 일반적으로 모든 예측은 리프로 이동하고 내부 노드는 분류에만 사용됩니다.
리프 노드는 항상 NODE_TYPE이 4(분포)이며 사용자가 제공한 특성에 대해 각 결과(구매 또는 구매 안 함)의 확률을 보여 주는 히스토그램을 포함합니다. 예를 들어 60세 이상의 남성인 새 고객에 대한 예측을 요청할 경우 모델에서는 해당 노드(Age > 30 and Gender = Male)를 조회한 다음 사용자가 지정한 결과에 대한 확률을 반환합니다. 이러한 확률은 노드의 NODE_DISTRIBUTION 테이블에 저장됩니다.
예측 가능한 특성이 연속 숫자인 경우 알고리즘에서는 예측 가능한 특성과 입력 간의 관계를 모델링하는 회귀 수식을 만듭니다.
노드 캡션 및 노드 설명
의사 결정 트리 모델에서 노드 캡션과 노드 설명에는 비슷한 정보가 포함됩니다. 그러나 노드 설명은 보다 완전하며 리프 노드에 근접하게 이동할수록 더 많은 정보를 포함합니다. 노드 캡션과 노드 설명은 모두 지역화된 문자열입니다.
NODE_CAPTION |
특정 노드를 부모 노드를 기준으로 구별하는 특성을 표시합니다. 노드 캡션은 분할 조건을 기반으로 모집단의 하위 세그먼트를 정의합니다. 예를 들어 분할이 [Age]에 따라 이루어지며 3방향 분할인 경우 세 개의 자식 노드에 대한 노드 캡션은 "[Age] < 40", "40 <= [Age] < 50", "[Age] >= 50"일 수 있습니다. |
NODE_DESCRIPTION |
모델 부모 노드에서 시작하여 해당 노드를 다른 노드와 구별해 주는 특성의 전체 목록을 포함합니다. 예를 들어 Product name = Apple 및 Color = Red 특성이 있습니다. |
노드 규칙 및 한계 규칙
NODE_RULE 및 MARGINAL_RULE 열은 NODE_CAPTION 및 NODE_DESCRIPTION 열과 동일한 정보를 포함하지만 정보는 XML 조각으로 표현됩니다. 노드 규칙은 전체 경로의 XML 버전인 반면 한계 규칙은 가장 최근의 분할을 나타냅니다.
XML 조각으로 표현되는 특성은 단순한 특성이거나 복잡한 특성일 수 있습니다. 단순한 특성에는 모델 열의 이름과 특성 값이 포함됩니다. 모델 열에 중첩 테이블이 들어 있는 경우 중첩 테이블 특성은 테이블 이름, 키 값 및 특성의 연결로 표현됩니다.
[!참고]
SQL ServerAnalysis Services에서는 중첩 테이블 사용을 지원하는 확장과 함께 2.0 버전의 PMML 표준을 지원합니다. 데이터에 중첩 테이블이 들어 있는 경우 PMML 버전의 모델을 생성하면 해당 모델에서 조건자가 포함된 모든 요소는 확장으로 표시됩니다.
불연속 특성의 노드 분포
의사 결정 트리 모델에서 NODE_DISTRIBUTION 테이블에는 유용한 통계가 들어 있습니다. 그러나 통계의 유형은 트리가 불연속 특성을 예측하는지 연속 특성을 예측하는지에 따라 달라집니다. 이 섹션에서는 불연속 특성에 대한 노드 분포 통계의 의미를 설명합니다.
특성 이름 및 특성 값
분류 트리에서 특성 이름에는 항상 예측 가능한 열의 이름이 들어 있습니다. 이 값은 트리가 예측하는 내용을 알려 줍니다. 단일 트리는 항상 예측 가능한 단일 특성을 나타내므로 이 값은 트리 전체에서 반복됩니다.
불연속 데이터 형식의 경우 특성 값 필드에는 예측 가능한 열의 가능한 값과 Missing 값이 나열됩니다.
지지도
각 노드의 지지도 값은 이 노드에 포함된 사례 수를 나타냅니다. (All) 수준에서는 모델을 학습하는 데 사용된 사례의 총 수가 표시됩니다. 트리에 있는 각 분할의 경우 지지도 값은 트리의 해당 노드로 그룹화된 사례 수입니다. 리프 노드에 있는 사례의 합계는 반드시 트리의 부모 노드에 있는 사례 수와 같습니다.
연속 특성을 나타내는 노드의 경우 데이터에 Null이 있으면 예상치 않은 결과가 발생할 수 있습니다. 예를 들어 m개의 사례가 있는 경우 평균값은 sum(모든 사례 수)/n으로 계산됩니다. 여기서 n은 m보다 작은 숫자이고 m-n은 누락 값이 있는 사례의 수를 나타냅니다. 지지도는 n으로도 나타납니다.
확률
각 노드와 관련된 확률은 전체 데이터 집합의 사례가 해당 노드에 포함될 확률을 나타냅니다. 확률 점수는 트리 전체와 바로 아래의 분할 모두에 대해 계산됩니다.
예를 들어 다음 표에서는 100개의 사례가 있는 매우 간단한 모델을 보여 줍니다.
내부 트리 |
사례 |
리프 노드 |
사례 |
부모 노드에 상대적인 확률 |
최상위 노드에 상대적인 확률 |
---|---|---|---|---|---|
Age >= 30 |
60 |
Age >= 30 and Gender = Male |
50 |
50/60 = .83 |
50/100 = .5 |
|
|
Age >= 30 and Gender = Female |
10 |
10/60 = .16 |
10/100 = .10 |
Age < 30 |
40 |
Age < 30 and Gender = Male |
30 |
30/40 = .75 |
30/100 = .30 |
|
|
Age < 30 and Gender = Female |
10 |
10/40 = .25 |
10/100 = .10 |
모든 모델에서 가능한 누락 값을 설명하기 위해 약간의 조정이 이루어집니다. 연속 특성의 경우 각각의 값 또는 값 범위는 상태(예: Age <30, Age = 30 및 Age >30)로 표현되고 확률은 값 1(상태가 존재함), 값 0(다른 상태가 존재함) 또는 Missing(상태가 누락됨)으로 계산됩니다. 누락 값을 나타내기 위해 확률을 조정하는 방법은 누락 값(Analysis Services - 데이터 마이닝)을 참조하십시오.
각 노드에 대한 확률은 다음과 같이 분포에서 거의 직접 계산됩니다.
확률 = (상태에 대한 지지도 + 이전 상태에 대한 지지도) / (노드 지지도 + 이전 노드 지지도)
Analysis Services에서는 각 노드에 대한 확률을 사용하여 저장된 확률과 이전 확률을 비교함으로써 부모 노드에서 자식 노드까지의 경로가 강한 유추를 나타내는지 확인합니다.
예측을 만들 때는 분포 확률과 노드 확률의 균형이 맞도록 확률을 조정해야 합니다. 예를 들어 트리의 분할이 사례를 9000/1000 비율로 나누는 경우 이 트리는 매우 불균형적입니다. 따라서 작은 분기에서 얻은 예측과 여러 사례가 있는 분기에서 얻은 예측에 동일한 가중치가 적용되어서는 안 됩니다.
분산
분산은 샘플의 값이 예상 분포를 기준으로 얼마나 넓게 분산되어 있는지를 측정한 것입니다. 불연속 값의 경우 분산은 정의에 따라 0입니다.
연속 값에 대해 분산을 계산하는 방법은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.
값 유형
값 유형 열에서는 NODE_DISTRIBUTION 테이블의 다른 열에 제공된 숫자 값의 의미에 대한 정보를 제공합니다. 쿼리에 값 유형을 사용하여 중첩 테이블에서 특정 행을 검색할 수 있습니다. 예를 보려면 의사 결정 트리 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.
MiningValueType 열거형의 유형 중 다음 유형이 분류 트리에 사용됩니다.
값 유형 |
설명 |
---|---|
1(누락) |
누락 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다. |
4(불연속) |
불연속 또는 분할된 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다. |
모델에 예측 가능한 연속 특성이 포함된 경우 트리에도 회귀 수식에 고유한 값 유형이 포함될 수 있습니다. 회귀 트리에 사용되는 값 유형 목록은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.
노드 점수
노드 점수는 트리의 각 수준에서 조금씩 다른 정보를 나타냅니다. 일반적으로 점수는 조건에 따라 분할함으로써 분할이 얼마나 적절하게 이루어졌는지를 나타내는 숫자 값입니다. 값은 double 형식으로 나타나며 값이 높을수록 분할이 적절한 것입니다.
정의에 따라 모델 노드와 모든 리프 노드의 노드 점수는 0입니다.
각 트리의 최상위를 나타내는 (All) 노드의 경우 MSOLAP_NODE_SCORE 열에는 트리 전체에서 최상의 분할 점수가 들어 있습니다.
리프 노드를 제외한 트리의 다른 모든 노드의 경우 각 노드의 점수는 현재 노드에 대한 최상의 분할 점수에서 부모 노드의 분할 점수를 뺀 값을 나타냅니다. 일반적으로 부모 노드의 분할 점수는 항상 자식 노드의 분할 점수보다 높아야 합니다. 의사 결정 트리 모델에서는 먼저 가장 중요한 특성에 따라 분할하기 때문입니다.
선택하는 알고리즘 매개 변수에 따라 여러 가지 방법으로 분할 점수를 계산할 수 있습니다. 각 점수 매기기 방법에서 점수가 계산되는 방식에 대한 설명은 이 항목에서 다루지 않습니다. 자세한 내용은 Microsoft Research 웹 사이트의 "Bayesian 네트워크 학습: 지식 및 통계 데이터의 조합(Learning Bayesian Networks: The Combination of Knowledge and Statistical Data)"을 참조하십시오.
[!참고]
연속 및 불연속 예측 가능 특성이 모두 있는 의사 결정 트리 모델을 만드는 경우 각 트리 유형을 나타내는 (All) 노드에는 완전히 다른 점수가 표시됩니다. 각 모델은 독립적으로 간주되며 회귀 평가에 사용되는 방법은 분류 평가에 사용되는 방법과 완전히 다릅니다. 따라서 노드 점수 값을 비교할 수 없습니다.
의사 결정 트리 모델 내의 회귀 노드
의사 결정 트리 모델에 예측 가능한 특성과 연속 숫자 데이터가 있는 경우 Microsoft 의사 결정 트리 알고리즘은 데이터에서 예측된 상태와 입력 변수 간의 관계가 선형적인 영역을 찾으려고 합니다. 선형 관계를 찾는 데 성공할 경우 알고리즘은 선형 회귀를 나타내는 특수한 트리(NODE_TYPE = 25)를 만듭니다. 이러한 회귀 트리 노드는 불연속 값을 나타내는 노드보다 복잡합니다.
일반적으로 회귀는 연속 종속 변수(예측 가능한 변수)의 변화를 입력의 변화에 대한 함수로 매핑합니다. 종속 변수에 연속 입력이 있고 입력과 예측된 값 간의 관계가 꺾은선형 그래프로 처리할 수 있을 만큼 안정적이면 회귀의 노드에 수식이 포함됩니다.
그러나 입력과 예측된 값 간의 관계가 비선형적인 경우에는 표준 의사 결정 트리와 같은 방식으로 분할이 만들어집니다. 예를 들어 A가 예측 가능한 특성이고 B 및 C는 입력이며 이때 C는 연속 값 유형이라고 가정합니다. A와 C 간의 관계가 데이터의 일부분에서는 매우 안정적이지만 다른 부분에서는 안정적이지 않을 경우 알고리즘은 분할을 만들어 각 데이터 영역을 나타냅니다.
분할 조건 |
노드의 결과 |
---|---|
n < 5일 경우 |
관계를 수식 1로 표현할 수 있습니다. |
n이 5와 10 사이에 있는 경우 |
수식 없음 |
n > 10일 경우 |
관계를 수식 2로 표현할 수 있습니다. |
회귀 노드에 대한 자세한 내용은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.