다음을 통해 공유


데이터 마이닝 모델 유효성 검사

데이터 마이닝 디자이너의 마이닝 정확도 차트 탭을 사용하여 정확도의 유효성을 검사하고 마이닝 구조에 포함된 각 마이닝 모델의 예측 능력을 비교할 수 있습니다. 이 옵션은 사용할 올바른 알고리즘이나 개별 알고리즘 내에서 매개 변수 조정 방법을 선택할 때 유용합니다.

유효성 검사는 데이터 마이닝 프로세스에서 중요한 단계입니다. 마이닝 모델을 프로덕션 환경에 배포하기 전에 실제 데이터에 대한 마이닝 모델의 성능을 아는 것이 중요합니다. 대규모 데이터 마이닝 프로세스에서 모델 유효성 검사가 수행되는 방법은 데이터 마이닝 개념을 참조하십시오.

유효성 검사 도구

마이닝 정확도 차트 탭은 마이닝 모델의 유효성 검사를 위해 다음 도구를 제공합니다.

  • 리프트 차트
  • 분류 행렬

리프트 차트

리프트 차트는 데이터 집합에 있는 예측 가능한 열의 알려진 값과 테스트 데이터 집합의 예측 쿼리 결과를 비교해서 그린 것입니다. 다음 다이어그램에서는 이 차트 종류의 예를 제공합니다.

대상 대 전체 모집단의 리프트 차트

이 차트는 마이닝 모델의 결과 선을 다른 두 개의 선과 함께 표시합니다. 한 선은 항상 올바른 결과를 내는 완벽한 예측 능력을 가진 이상적인 모델의 결과를 나타내고 다른 선은 임의 추측 결과를 나타냅니다. 모델 결과는 이상적인 모델과 임의 추측 사이에 나타납니다. 임의 선 위의 향샹률을 리프트라고 하며 리프트가 클수록 모델이 더 효과적입니다.

예측 가능한 연속 특성에서 작성된 리프트 차트는 선 대신 산점도를 표시합니다.

리프트 차트를 구현하려면 다음이 필요합니다.

  • 하나 이상의 성향 습득된 마이닝 모델
  • 예측 가능한 열의 값이 포함된 입력 데이터 집합
  • 마이닝 모델의 구조와 입력 데이터 간의 매핑

참조 항목: 마이닝 정확도 차트 탭 방법 도움말 항목, 열 매핑(리프트 차트), 리프트 차트

맨 위로 이동

분류 행렬

분류 행렬 탭은 구조에 포함된 각 마이닝 모델의 정확한 예측 능력을 검사하는 다른 방법을 제공합니다. 분류 행렬은 마이닝 모델의 예측 값과 테스트 데이터 집합의 실제 값을 비교하여 작성합니다. 행렬은 모델이 정확하게 값을 예측한 빈도뿐만 아니라 모델이 자주 잘못 예측한 다른 값도 표시하기 때문에 매우 유용한 도구입니다.

예를 들어 한 식품점의 고객이 사용하는 멤버 카드 유형을 예측하도록 구성된 모델을 가정해 보십시오. 카드는 금, 은, 동의 세 가지 유형이 있습니다. 다음 표에서는 멤버 카드 값이 알려진 테스트 데이터베이스에서 멤버 카드 값을 예측하는 모델의 분류 행렬을 보여 줍니다.

실제 값

동으로 잘못 예측된 값

동으로 잘못 예측된 값

은으로 잘못 예측된 값

실제 값

은으로 잘못 예측된 값

금으로 잘못 예측된 값

금으로 잘못 예측된 값

실제 값

행렬의 왼쪽 위 모퉁이에서 오른쪽 아래 모퉁이로 대각선 방향으로 진행하는 값은 실제로 테스트 데이터 집합에 있는 값의 올바른 수를 제공합니다. 행렬의 열은 테스트 데이터 집합에서 예측된 항목을 나타냅니다. 행은 테스트 데이터 집합에서의 실제 특성 상태를 나타냅니다.

예를 들어 마이닝 모델이 동 카드를 가진 고객을 예측한 방법을 살펴보십시오. 동 열과 동 행의 교차점 값이 테스트 데이터베이스에서 동 카드를 가진 실제 고객 수를 나타냅니다. 은 열과 동 행의 교차점 값은 실제로 동 카드인데 은으로 잘못 예측된 사례 수를 나타냅니다. 동에 대해 잘못 예측된 값의 수는 동 열과 은 행, 동 열과 금 행 교차점 값의 합계입니다. 다른 카드 유형도 같은 방법으로 분석할 수 있습니다.

참조 항목:마이닝 정확도 차트 탭 방법 도움말 항목, 열 매핑(리프트 차트), 분류 행렬

맨 위로 이동

참고 항목

개념

데이터 마이닝 도구 사용
데이터 마이닝 개념
데이터 마이닝 작업

관련 자료

마이닝 정확도 차트 탭 방법 도움말 항목

도움말 및 정보

SQL Server 2005 지원 받기