교차 유효성 검사(SQL Server 데이터 마이닝 추가 기능)
교차 유효성 검사는 분석의 표준 도구이며 데이터 마이닝 모델 개발 및 미세 조정에 도움이 되는 중요한 기능입니다. 마이닝 모델을 만든 후 교차 유효성 검사를 사용하여 모델의 유효성을 확인하고 결과를 다른 관련 마이닝 모델과 비교할 수 있습니다.
교차 유효성 검사는 학습 및 보고서 생성의 두 단계로 구성됩니다. 여기에서는 다음 단계를 완료하게 됩니다.
대상 마이닝 구조 또는 마이닝 모델 선택
해당되는 경우 대상 값 지정
구조체 데이터를 분할할 구역 또는 접기의 수를 지정 합니다.
그런 다음 교차 유효성 검사 마법사는 각 접기에서 새 모델을 만들고, 다른 접기에서 모델을 테스트한 다음, 모델의 정확도를 보고합니다. 완료되면 교차 유효성 검사 마법사는 각 접기의 메트릭을 보여 주는 보고서를 만들고 모델의 요약을 집계로 제공합니다. 이 정보는 기본 데이터가 모델에 얼마나 적합한지 파악하거나 동일한 데이터로 작성된 여러 모델을 비교하는 데 사용할 수 있습니다.
교차 유효성 검사 마법사 사용
Analysis Services의 instance 저장된 임시 모델과 모델에 대해 교차 유효성 검사를 사용할 수 있습니다.
교차 유효성 검사 보고서를 만들려면
데이터 마이닝 리본의 정확도 및 유효성 검사 그룹에서 교차 유효성 검사를 클릭합니다.
구조 또는 모델 선택 대화 상자에서 기존 마이닝 구조 또는 마이닝 모델을 선택합니다. 구조를 선택하면 마법사는 해당 구조를 기반으로 작성되어 동일한 예측 가능 특성을 가지고 있는 모든 모델에 대해 교차 유효성 검사를 사용합니다. 모델을 선택하면 해당 모델에 대해서만 교차 유효성 검사가 사용됩니다.
교차 유효성 검사 매개 변수 지정 대화 상자의 접기 개수 상자에서 데이터 집합을 나눌 접기 수를 선택합니다. 접기는 임의로 선택된 데이터의 교집합 영역입니다.
필요에 따라 최대 행 텍스트 상자에 숫자를 입력하여 교차 유효성 검사에 사용할 최대 행 수를 설정합니다.
참고
행을 더 많이 사용할수록 결과가 더 정확해지지만 처리 시간도 훨씬 길어질 수 있습니다. 선택하는 수는 데이터에 따라 다르지만 일반적으로 성능에 문제가 생기지 않는 한도 내에서 최대 수를 선택해야 합니다. 성능을 높이기 위해 접기 수를 더 적게 지정할 수도 있습니다.
대상 특성 드롭다운 목록에서 열을 선택합니다. 이 목록에는 처음 모델을 만들 때 예측 가능 특성으로 구성한 열만 표시됩니다. 모델에는 예측 가능 특성이 여러 개 있을 수 있지만 이 중 하나만 선택할 수 있습니다.
대상 상태 드롭다운 목록에서 값을 선택합니다.
예측 가능 열에 연속 숫자 데이터가 있는 경우에는 이 옵션을 사용할 수 없습니다.
필요에 따라 예측을 정확하게 계산할 때 대상 임계값 으로 사용할 값을 지정합니다. 이 값은 0에서 1 사이의 확률로 표시되는데 여기서 1은 예측의 정확성이 보장됨을 의미하고 0은 예측이 정확할 가능성이 없음을 의미하며 0.5는 임의 추측과 동일합니다.
예측 가능 열에 연속 숫자 데이터가 있는 경우에는 이 옵션을 사용할 수 없습니다.
Finish를 클릭합니다. 교차 유효성 검사라는 새 워크시트가 만들어집니다.
참고
모델이 접기로 분할되고 각 접기가 테스트되는 동안 일시적으로 Microsoft Excel이 무응답 상태가 될 수 있습니다.
요구 사항
교차 유효성 검사 보고서를 만들려면 데이터 마이닝 구조 및 관련 모델이 먼저 만들어져 있어야 합니다. 마법사에는 기존 구조 및 모델에서 선택할 수 있는 대화 상자가 표시됩니다.
여러 마이닝 모델을 지원하는 마이닝 구조를 선택하고 이 모델들이 서로 다른 예측 가능 특성을 사용하는 경우 교차 유효성 검사 마법사는 동일한 예측 가능 특성을 공유하는 모델만 테스트합니다.
클러스터링 모델과 다른 유형의 모델을 동시에 지원하는 구조를 선택하는 경우 클러스터링 모델은 테스트되지 않습니다.
교차 유효성 검사 결과 이해
교차 유효성 검사 결과는 특성 이름>에 대한 <교차 유효성 검사 보고서라는 제목의 새 워크시트에 표시됩니다. 새 워크시트에는 여러 섹션이 포함되어 있습니다. 첫 번째 섹션은 테스트된 모델에 대한 중요한 메타데이터를 제공하는 요약이므로 결과가 어떤 모델인지 알 수 있습니다.
보고서의 두 번째 섹션은 원래 모델이 얼마나 정확한지를 나타내는 통계 요약입니다. 이 요약에서 각 접기에서 만든 모델 간의 차이는 루트 평균 제곱 오차, 평균 절대 오차 및 로그 점수의 세 가지 주요 측정값에 대해 분석됩니다. 이 측정값은 데이터 마이닝뿐만 아니라 대부분의 통계 분석에서도 사용되는 표준 통계 측정값입니다.
각 측정값에 대해 교차 유효성 검사 마법사는 모델 전체에 대한 표준 및 표준 편차를 계산합니다. 이렇게 하면 데이터의 여러 하위 집합에 대한 예측을 수행할 때 모델이 얼마나 일관성이 있는지 알 수 있습니다. 예를 들어 표준 편차가 매우 크면 각 접기에 대해 만들어진 모델에서 생성되는 결과가 매우 다를 것이므로 모델이 특정 데이터 그룹에 대해 너무 자세하게 학습되고 다른 데이터 집합에는 적용할 수 없는 것일 수 있습니다.
다음 섹션은 모델을 평가하는 데 사용되는 측정값에 대해 설명합니다.
테스트 및 측정값
데이터의 접기 수 및 각 접기의 데이터 크기에 대한 기본 정보 외에도 워크시트에는 각 모델에 대한 메트릭 집합이 테스트 유형별로 범주화되어 표시됩니다. 예를 들어 클러스터링 모델의 정확도는 예측 모델에 사용되는 테스트와 다른 테스트를 통해 평가됩니다.
다음 표에서는 테스트와 메트릭을 메트릭의 의미에 대한 설명과 함께 나열합니다.
집계 및 일반 통계 측정값
보고서에 제공되는 집계 측정값은 데이터에서 만든 접기가 서로 어떻게 다른지 보여 줍니다.
평균 및 표준 편차
모델의 전체 파티션에서 특정 측정값에 대한 평균값과의 편차에 대한 평균입니다.
분류: 통과/실패
이 측정값은 예측 가능 특성에 대해 대상 값을 지정하지 않은 경우에 분류 모델에서 사용합니다. 예를 들어 여러 확률을 예측하는 모델을 만드는 경우 이 측정값은 모델이 모든 가능한 값을 얼마나 잘 예측했는지 알려 줍니다.
통과/실패는 다음 조건을 충족하는 사례 수를 계산하여 계산됩니다. 확률이 가장 높은 예측 상태가 입력 상태와 같고 확률이 상태 임계값에 대해 지정한 값보다 크면 pass입니다. 그렇지 않으면 실패합니다.
분류: 참 또는 가양성 및 부정
이 테스트는 지정된 대상이 있는 모든 분류 모델에 사용됩니다. 측정값은 모델이 예측한 내용과 실제 결과와 같은 질문에 대한 응답으로 각 사례를 분류하는 방법을 나타냅니다.
측정값 | Description |
---|---|
참 긍정 | 다음 조건을 충족하는 사례의 수입니다. 사례에 대상 값이 포함되어 있습니다. 사례에 대상 값이 포함되어 있을 것으로 모델이 예측했습니다. |
거짓 긍정 | 다음 조건을 충족하는 사례의 수입니다. 실제 값이 대상 값과 같습니다. 사례에 대상 값이 포함되어 있을 것으로 모델이 예측했습니다. |
참 부정 | 다음 조건을 충족하는 사례의 수입니다. 사례에 대상 값이 포함되어 있지 않습니다. 사례에 대상 값이 포함되어 있지 않을 것으로 모델이 예측했습니다. |
거짓 부정 | 다음 조건을 충족하는 사례의 수입니다. 실제 값이 대상 값과 같지 않습니다. 사례에 대상 값이 포함되어 있지 않을 것으로 모델이 예측했습니다. |
리프트
리프트 는 가능성과 관련된 측정값입니다. 임의 추측을 할 때보다 모델을 사용할 때 결과가 더 높은 경우 모델은 양수 리프트를 제공한다고 합니다. 그러나 모델이 임의 확률보다 가능성이 낮은 예측을 만드는 경우 리프트 점수는 음수입니다. 따라서 이 측정값은 모델을 통해 달성되는 향상의 정도를 나타내며 점수가 높을수록 좋습니다.
리프트는 테스트 사례의 한계 확률에 대한 실제 예측 확률의 비율로 계산됩니다.
로그 점수
예측에 대한 로그 가능성 점수라고도 하는 로그 점수는 로그 눈금으로 변환된 두 확률 간의 비율을 나타냅니다. 확률이 소수 부분으로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 점수일수록 좋은 점수입니다.
원시 점수는 해당 분포가 매우 불규칙적이거나 비대칭적일 수 있지만 로그 점수는 백분율과 유사합니다.
제곱 평균 오차
RMSE(루트 평균 제곱 오차)는 다양한 데이터 집합이 비교되는 방식을 살펴보고 입력의 배율로 인해 발생할 수 있는 차이를 부드럽게 하기 위한 통계의 표준 방법입니다.
RMSE는 실제 값과 비교한 예측 값의 평균 오차를 나타냅니다. 이 값은 대상 특성의 값이 누락된 행을 제외하고 모든 파티션 사례에 대한 평균 오차의 제곱근을 파티션의 사례 수로 나누어 계산합니다.
절대 평균 오차
평균 절대 오차는 실제 값에 대한 예측 값의 평균 오차입니다. 이 값은 오차의 절대값 합계를 구한 다음 해당 오차의 평균을 찾아서 계산됩니다.
이 값을 사용하면 점수가 평균에서 얼마나 떨어져 있는지 알 수 있습니다.
사례 유사도
이 측정값은 클러스터링 모델에만 사용되며 새 사례가 특정 클러스터에 속할 가능성을 나타냅니다.
클러스터링 모델에는 모델을 만들 때 사용한 방법에 따라 두 가지 종류의 클러스터 멤버 자격이 있습니다. 일부 모델에서는 K-means 알고리즘에 기초하여 새 사례가 하나의 클러스터에만 속할 것으로 예상합니다. 그러나 기본적으로 Microsoft 클러스터링 알고리즘은 새 사례가 어떤 클러스터에도 속할 수 있다고 가정하는 Expectation Maximization 방법을 사용합니다. 따라서 이 모델에서 사례는 여러 CaseLikelihood
값을 가질 수 있지만 기본적으로 보고되는 값은 새 사례에 가장 일치하는 클러스터에 속한 사례의 유사도입니다.