분류 행렬(Analysis Services - 데이터 마이닝)
데이터 마이닝 디자이너의 마이닝 정확도 차트 탭에 있는 분류 행렬 탭에서는 입력 선택 탭에서 지정한 각 모델의 행렬을 표시합니다. 혼동 행렬이라고도 하는 이 차트를 보면 모델이 정확하게 예측한 빈도를 빠르게 확인할 수 있습니다.
각 행렬에 대한 행은 모델의 예측 값을 나타내고 열은 실제 값을 나타냅니다. 분류 행렬은 모든 사례를 범주로 정렬함으로써 만들어집니다. 예측된 값이 실제 값과 일치하는지, 예측된 값이 올바른지 아닌지 등이 이러한 범주에 해당합니다. 이러한 범주를 거짓 긍정, 참 긍정, 거짓 부정 및 참 부정이라고도 합니다. 그런 다음 각 범주의 모든 사례 수가 계산되고 행렬에 합계가 표시됩니다.
이 섹션에서는 분류 행렬을 만드는 방법과 결과를 해석하는 방법에 대해 설명합니다.
[!참고]
분류 행렬은 예측 가능한 불연속 특성에서만 사용할 수 있습니다.
시나리오
예를 들어 기본 데이터 마이닝 자습서에서 만든 모델을 살펴봅니다. 대상 메일 캠페인을 만드는 데 사용되는 TM_DecisionTree 모델을 사용하여 자전거를 구매할 가능성이 가장 많은 고객을 예측할 수 있습니다. 고객이 자전거를 구매할 가능성이 있는 경우 [Bike Buyer] 열 값은 1이고 자전거를 구매할 가능성이 없는 경우 [Bike Buyer] 열 값은 0입니다.
모델이 예측을 만드는 데 유효한지 평가하려면 [Bike Buyer] 값이 이미 알려진 데이터 집합에 대해 모델을 테스트합니다. 일반적으로 모델 학습을 수행하는 데 사용되는 마이닝 구조를 작성할 때 따로 설정한 테스트 데이터 집합을 사용합니다. 이 데이터에 이미 실제 결과가 포함되어 있으므로 모델이 예상 값을 예측한 횟수를 신속하게 확인할 수 있습니다.
분류 행렬 이해
다음 표에서는 TM_DecisionTree 모델에 대한 분류 행렬이 만들어진 경우의 결과를 보여 줍니다. 이 예측 가능한 특성에 대해 가능한 값이 두 개, 즉 0과 1만 있으므로 모델에서 예측을 정확하게 수행하는 빈도를 쉽게 알 수 있습니다.
예측 |
0 (Actual) |
1 (Actual) |
---|---|---|
0 |
362 |
144 |
1 |
121 |
373 |
값 362가 포함된 첫 번째 결과 셀은 값 0에 대한 참 긍정 수를 나타냅니다. 0은 고객이 자전거를 구매하지 않았다는 것을 나타내므로 362개의 사례에서 모델이 자전거 비구매자에 대한 올바른 값을 예측했음을 이 통계에서 알 수 있습니다.
값 121을 포함하는 바로 아래의 셀은 거짓 긍정 수 또는 누군가가 실제로 자전거를 구매하지 않았는데 자전거를 구매할 것이라고 모델에서 예측한 횟수를 나타냅니다.
값 144가 포함된 셀은 값 1에 대한 거짓 긍정 수를 나타냅니다. 1은 고객이 자전거를 구매했다는 것을 나타내므로 144개의 사례에서 누군가가 실제로 자전거를 구매했는데 자전거를 구매하지 않을 것이라 모델에서 예측했음을 이 통계에서 알 수 있습니다.
마지막으로 값 373을 포함하는 셀은 대상 값 1에 대한 참 긍정 수를 나타냅니다. 즉, 373 사례에서 모델은 누군가가 자전거를 구매할 것으로 정확하게 예측했습니다.
대각선으로 인접한 셀의 값에 대한 합계를 구하면 모델의 전체적인 정확도를 확인할 수 있습니다. 대각선 하나는 정확한 예측의 총 개수를 나타내고 다른 하나는 잘못된 예측의 총 개수를 나타냅니다.
여러 예측 가능한 값 사용
[Bike Buyer] 사례는 두 개의 가능한 값만 있으므로 특히 쉽게 해석할 수 있습니다. 예측 가능한 특성에 여러 가능한 값이 있는 경우 분류 행렬은 각 가능한 실제 값에 대한 새 열을 추가하고 각 예측된 값에 대한 일치하는 항목 수를 계산합니다. 다음 표에서는 3개의 가능한 값(0, 1, 2)이 있는 다른 모델의 결과를 보여 줍니다.
예측 |
0 (Actual) |
1 (Actual) |
2 (Actual) |
---|---|---|---|
0 |
111 |
3 |
5 |
1 |
2 |
123 |
17 |
2 |
19 |
0 |
20 |
다른 열이 추가되어 보고서가 더 복잡해 보이지만 잘못된 예측의 비용을 평가하려는 경우 추가 세부 정보가 매우 유용할 수 있습니다. 대각선의 합계를 구하거나 다른 행 조합의 결과를 비교하려면 분류 행렬 탭에서 제공된 복사 단추를 클릭하고 보고서를 Excel에 붙여 넣습니다. 또는 SQL Server 2005 및 SQL Server 2008 둘 다를 지원하는 Excel용 데이터 마이닝 클라이언트와 같은 클라이언트를 사용하여 개수 및 비율을 모두 포함하는 분류 보고서를 Excel에서 직접 만들 수 있습니다. 자세한 내용은 SQL Server 데이터 마이닝(SQL Server Data Mining)을 참조하십시오.
분류 행렬 만들기
분류 행렬을 만들 때 다음과 같은 기본 단계를 따릅니다.
데이터 마이닝 디자이너의 마이닝 정확도 차트에서 입력 선택 탭을 클릭합니다.
입력 선택 탭에서 평가할 모델을 선택합니다.
예측 가능한 특성을 지정하고 필요에 따라 예측 가능한 값도 지정합니다.
평가에 사용할 데이터 집합을 선택합니다.
분류 행렬 탭을 클릭하여 분류 행렬 형식으로 보고서를 자동으로 생성합니다.
모든 차트 종류에 적용되는 단계별 절차는 방법: 마이닝 모델에 대한 정확도 차트 만들기를 참조하십시오.
또한 기본 데이터 마이닝 자습서에는 대상 메일 모델에 대한 리프트 차트를 만드는 방법을 보여 주는 연습이 제공됩니다. 자세한 내용은 리프트 차트를 사용하여 정확도 테스트(기본 데이터 마이닝 자습서)를 참조하십시오.