다음을 통해 공유


분류표(SQL Server 데이터 마이닝 추가 기능)

분류 행렬 단추, 데이터 마이닝 리본 분류

분류표를 사용하여 예측에 대한 모델의 정확도를 평가할 수 있습니다. 분류표를 생성하려면 모델을 통해 테스트 데이터 집합을 실행해야 합니다. 분류표 도구는 테스트 집합의 실제 값과 모델로 산출된 예측을 비교합니다. 분류표를 확인하여 모델이 올바르게 예측한 빈도와 잘못 예측한 빈도를 한눈에 볼 수 있습니다.

이러한 추가 기능에서 분류 매트릭스 마법사를 사용하여 모델을 선택하고 테스트 데이터를 지정한 다음 결과 매트릭스를 생성합니다.

분류표를 읽는 방법

고객 충성도 프로그램을 설계한 다음 적절한 범주에 고객을 할당하여 적절한 수준의 인센티브를 제공하는 것이 목표라고 가정해 보겠습니다. 보상 프로그램에 대한 세 가지 수준(브론즈, 실버, 골드)을 구현했으며, 이를 평가 단계에서 고객에게 제공했습니다. 또한 고객을 분석하고 올바른 범주를 예측하는 모델을 설계했습니다. 이제 시험 데이터에 대한 분류표를 사용하여 모델이 모든 고객에 대한 올바른 보상을 얼마나 정확하게 예측했는지를 확인할 것입니다.

분류표의 표에서는 모델을 기반으로 각 범주에 할당될 고객 수를 알려주고 이 결과를 각 보상 수준에 실제로 등록한 고객 수와 비교합니다.

동(실제) 금(실제) 은(실제)
94.45% 15.18% 1.70%
2.72% 84.82% 0.00%
1.84% 0.00% 93.80%
올바름 95.45% 84.82% 98.30%
오분류 4.55% 15.18% 1.70%
  • 각 열에는 테스트 데이터 세트의 실제 값이 표시됩니다.

  • 각 행에는 예측된 값이 표시됩니다.

  • 분류표의 왼쪽 위 모퉁이에서 오른쪽 아래 모퉁이까지 대각선 방향으로 굵게 표시된 값은 모델이 올바르게 예측한 값을 보여 줍니다.

  • 대각선 밖의 다른 모든 값은 오류를 나타냅니다. 일부 오류는 거짓 긍정입니다. 즉, 모델은 고객이 금 프로그램에 참여할 것으로 예측했지만 틀린 경우입니다. 분야에 따라 거짓 긍정은 비용이 매우 많이 들 수 있습니다.

    다른 오류는 거짓 부정입니다. 즉, 모델은 고객이 관심이 없을 것이라고 예측했지만 고객은 프로그램에 참여한 경우입니다. 마찬가지로 문제 분야에 따라 이 손실된 기회 비용은 상당히 클 수 있습니다.

분류표 마법사 사용

  1. 예측의 기반이 될 마이닝 모델을 선택합니다.

  2. 새 테스트 데이터의 원본을 선택하거나 구조와 함께 저장된 테스트 데이터를 사용합니다.

  3. 정확도를 평가하려는 열을 선택합니다. 분류표를 만들 때 열을 하나만 선택할 수 있지만 열의 값이 여러 개일 수 있습니다.

    팁: 예측 가능한 열에 비교할 열이 많은 경우 분류 행렬을 해석하기 어려울 수 있습니다.

    예측할 열 선택 페이지에서 올바르지 않거나 잘못된 값의 수를 표시할지 또는 백분율을 표시할지 지정할 수도 있습니다.

  4. 원본 데이터 선택 페이지에서 외부 테스트 데이터를 사용할지, 아니면 모델과 함께 저장된 테스트 데이터를 사용할지를 나타냅니다.

  5. 외부 테스트 데이터를 사용하는 경우 마법사의 관계 지정 페이지에 있는 입력 열에 모델을 매핑해야 합니다.

    포함된 테스트 데이터 집합을 사용하는 경우 매핑이 자동으로 수행됩니다.

  6. 마침을 클릭하여 모델에 대한 예측을 실행하고 분류 행렬을 생성합니다.

    마법사가 분류표 및 분석에 대한 기타 세부 사항이 포함된 보고서를 만듭니다. 이 보고서는 Excel에서 테이블로 저장되며 보고서 위에는 올바르게 예측된 경우의 수와 잘못된 예측의 수를 나타내는 요약이 있습니다.

요구 사항

  • 분류표를 만들려면 정확도 측정을 지원하는 기존 마이닝 모델에 액세스할 수 있어야 합니다. 예측 모델과 연결 모델은 이 도구를 사용하여 측정될 수 없습니다.

  • 측정할 모델은 불연속 값이거나 이미 불연속화된 값을 예측해야 합니다.

  • 이 옵션을 사용하여 구조 또는 모델과 함께 테스트 집합을 저장하지 않은 경우 모델에서 사용되는 것과 일치하는 데이터 형식과 기본적으로 동일한 수의 열이 있는 입력 데이터 집합을 가져와야 합니다.

  • 데이터 마이닝 모델과 테스트에 사용할 새 데이터에는 예측 가능한 열이 한 개 이상 있어야 하며 열은 반드시 동일한 종류의 데이터를 포함해야 합니다.

알려진 문제

SQL Server 2012 및 SQL Server 2014에서는 분류 행렬 도구에서 내부 테스트 데이터 집합을 모델에 매핑하는 기능이 작동하지 않습니다. 그러나 외부 데이터 집합을 지정한 다음 학습 집합을 입력으로 선택하여 원래 데이터 집합에 대한 오류를 확인할 수 있습니다.

참고 항목

모델 유효성 검사 및 예측용 모델 사용(Excel용 데이터 마이닝 추가 기능)
데이터 탐색(SQL Server 데이터 마이닝 추가 기능)
범주 검색(Excel용 테이블 분석 도구)