교차 유효성 검사 탭(마이닝 정확도 차트 보기)
교차 유효성 검사를 사용하면 마이닝 구조를 횡단면으로 분할하고 각 단면에 대해 모델을 반복적으로 학습하고 테스트할 수 있습니다. 데이터를 분할할 접기 수를 지정하면 각 접기가 테스트 데이터로 사용되고 나머지 데이터는 새 모델을 학습하는 데 사용됩니다. 그런 다음 Analysis Services는 각 모델에 대한 표준 정확도 메트릭 집합을 생성합니다. 각 교집합 영역에 대해 생성된 모델의 메트릭을 비교하여 전체 데이터 집합에 대한 마이닝 모델의 안정성을 파악할 수 있습니다.
자세한 내용은 교차 유효성 검사(Analysis Services - 데이터 마이닝)를 참조하세요.
참고 항목
교차 유효성 검사는 Microsoft 시계열 알고리즘 또는 Microsoft 시퀀스 클러스터링 알고리즘을 사용하여 빌드된 모델에서 사용할 수 없습니다. 이러한 유형의 모델을 포함하는 마이닝 구조에서 보고서를 실행하는 경우 모델은 보고서에 포함되지 않습니다.
작업 목록
접기 수를 지정합니다.
교차 유효성 검사에 사용할 최대 사례 수를 지정합니다.
예측 가능한 열을 지정합니다.
필요에 따라 예측 가능한 상태를 지정합니다.
필요에 따라 예측의 정확도를 평가하는 방법을 제어하는 매개 변수를 설정합니다.
결과 가져오기를 클릭하여 교차 유효성 검사 결과를 표시합니다.
UI 요소 목록
접기 개수
만들 접기 또는 파티션 수를 지정합니다. 최소값은 2입니다. 즉, 데이터 집합의 절반이 테스트에 사용되고 절반은 학습에 사용됩니다.
세션 마이닝 구조의 최대값은 10입니다.
마이닝 구조가 Analysis Services 인스턴스에 저장된 경우 최대값은 256입니다.
참고 항목
접기 수를 늘리면 교차 유효성 검사를 수행하는 데 필요한 시간도 마찬가지로 n배 증가합니다. 사례 수가 크고 Fold Count 값도 큰 경우 성능 문제가 발생할 수 있습니다.
최대 사례
교차 유효성 검사에 사용할 최대 사례 수를 지정합니다. 특정 접기의 사례 수는 접기 개수 값으로 나눈 최대 사례 값과 같습니다.
0을 사용하는 경우 원본 데이터의 모든 사례가 교차 유효성 검사에 사용됩니다.
기본값이 없습니다.
참고 항목
사례 수를 늘리면 처리 시간도 증가합니다.
대상 특성
모든 모델에서 찾은 예측 가능한 열 목록에서 열을 선택합니다. 교차 유효성 검사를 수행할 때마다 하나의 예측 가능한 열만 선택할 수 있습니다.
클러스터링 모델만 테스트하려면 클러스터를 선택합니다.
대상 상태
값을 입력하거나 드롭다운 값 목록에서 대상 값을 선택합니다.
기본값은 null
로 모든 상태가 테스트된 것으로 간주됩니다.
클러스터링 모델에서 사용할 수 없습니다.
대상 임계값
예측 상태가 올바른 것으로 간주되는 위의 예측 확률을 나타내는 0에서 1 사이의 값을 지정합니다. 이 값은 0.1 단위로 설정할 수 있습니다.
기본값은 null
가장 가능성이 있는 예측이 올바른 것으로 계산됨을 나타내는 것입니다.
참고 항목
값을 0.0으로 설정할 수 있지만 이 값을 사용하면 처리 시간이 늘어나고 의미 있는 결과가 생성되지 않습니다.
결과 가져오기
지정한 매개 변수를 사용하여 모델의 교차 유효성 검사를 시작하려면 클릭합니다.
모델이 지정한 접기 수로 분할되고 각 접기에 대해 별도의 모델이 테스트됩니다. 따라서 교차 유효성 검사가 결과를 반환하는 데 다소 시간이 걸릴 수 있습니다.
교차 유효성 검사 보고서의 결과를 해석하는 방법에 대한 자세한 내용은 교차 유효성 검사 보고서의 측정값을 참조 하세요.
정확도 임계값 설정
대상 임계값에 대한 값을 설정하여 예측 정확도를 측정하기 위한 표준을 제어할 수 있습니다. 임계값은 일종의 정확도 막대를 나타냅니다. 각 예측에는 예측 값이 정확할 확률이 할당됩니다. 따라서 대상 임계값을 1에 가깝게 설정하면 특정 예측의 확률이 상당히 높아야 합니다. 반대로 대상 임계값을 0에 가깝게 설정하면 확률 값이 낮은 예측도 "양수" 예측으로 계산됩니다.
예측의 확률은 데이터의 양과 예측 유형에 따라 달라지므로 권장 임계값은 없습니다. 서로 다른 확률 수준에서 일부 예측을 검토하여 데이터에 적절한 정확도 표시줄을 결정해야 합니다. 대상 임계값에 대해 설정한 값이 모델의 측정된 정확도에 영향을 주므로 이 작업을 수행하는 것이 중요합니다.
예를 들어 특정 대상 상태에 대해 세 개의 예측을 만들었으며 각 예측의 확률이 0.05, 0.15 및 0.8이라고 가정합니다. 임계값을 0.5로 설정하면 한 예측만 올바른 것으로 간주됩니다. 대상 임계값을 0.10으로 설정하면 두 예측이 올바른 것으로 계산됩니다.
기본값인 대상 임계값으로 null
설정된 경우 각 사례에 대해 가장 가능성이 큰 예측이 올바른 것으로 계산됩니다. 방금 인용한 예제에서 0.05, 0.15 및 0.8은 세 가지 다른 경우의 예측에 대한 확률입니다. 확률은 매우 다르지만 각 사례는 하나의 예측만 생성하고 이러한 경우에 가장 적합한 예측이므로 각 예측은 올바른 것으로 계산됩니다.
참고 항목
테스트 및 유효성 검사(데이터 마이닝)
교차 유효성 검사(Analysis Services - 데이터 마이닝)
교차 유효성 검사 보고서의 측정값
데이터 마이닝 저장 프로시저(Analysis Services - 데이터 마이닝)