모델 평가

아티클
11/13/2019

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

표준 메트릭을 사용하여 분류 또는 회귀 모델의 결과를 평가합니다.

범주: Machine Learning/평가

참고

적용 대상: Machine Learning Studio(클래식)만

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 모델 평가 모듈을 사용하여 학습된 모델의 정확도를 측정하는 방법을 설명합니다. 모델에서 생성된 점수가 포함된 데이터 세트를 제공하면 모델 평가 모듈은 산업 표준 평가 메트릭 세트를 계산합니다.

모델 평가에서 반환되는 메트릭은 다음과 같이 평가하는 모델의 유형에 따라 달라집니다.

분류 모델
회귀 모델
클러스터링 모델

권장 사항 모델의 경우 추천 평가 모듈을 사용합니다.

팁

모델 평가를 접하는 경우 모델을 빌드한 다음 관련 메트릭을 사용하는 방법을 설명하는 Azure AI 갤러리에서 이러한 샘플을 사용하는 것이 좋습니다.

또한 EdX의 기계 학습 과정의 일환으로 스티븐 엘스턴 박사의 비디오 시리즈를 권장합니다.

모델 평가 사용 방법

모델 평가 모듈을 사용하는 방법에는 세 가지가 있습니다.

학습 데이터에 대한 점수를 생성하고 이러한 점수에 따라 모델을 평가합니다.
모델에 점수를 생성하지만 이러한 점수를 예약된 테스트 집합의 점수와 비교합니다.
동일한 데이터 세트를 사용하여 서로 다른 두 개의 관련 모델에 대한 점수를 비교합니다.

학습 데이터 사용

모델을 평가하려면 입력 열 및 점수 집합이 포함된 데이터 집합에 연결해야 합니다. 다른 데이터를 사용할 수 없는 경우 원래 데이터 세트를 사용할 수 있습니다.

모델 평가 입력에 점수 매기기 모델의 점수 매기기 데이터 세트 출력을 커넥트.
모델 평가 모듈을 클릭하고 선택한 실행을 선택하여 평가 점수를 생성합니다.

테스트 데이터 사용

기계 학습의 일반적인 시나리오는 분할 모듈 또는 파티션 및 샘플 모듈을 사용하여 원래 데이터 세트를 학습 및 테스트 데이터 세트로 분리하는 것입니다.

모델 평가의 입력에 점수 매기기 모델의 점수 매기기 데이터 세트 출력을 커넥트.
테스트 데이터가 포함된 데이터 분할 모듈의 출력을 모델 평가의 오른쪽 입력에 커넥트.
모델 평가 모듈을 클릭하고 선택한 실행을 선택하여 평가 점수를 생성합니다.

두 모델의 점수 비교

두 번째 점수 집합을 모델 평가에 연결할 수도 있습니다. 점수는 알려진 결과가 있는 공유 평가 집합이거나 동일한 데이터에 대해 다른 모델의 결과 집합일 수 있습니다.

이 기능은 동일한 데이터에서 서로 다른 두 모델의 결과를 쉽게 비교할 수 있으므로 유용합니다. 또는 서로 다른 매개 변수를 사용하여 동일한 데이터에 대해 수행한 두 번의 실행 결과 생성된 점수를 비교할 수 있습니다.

모델 평가 입력에 점수 매기기 모델의 점수 매기기 데이터 세트 출력을 커넥트.
두 번째 모델에 대한 모델 점수 매기기 모듈의 출력을 모델 평가의 오른쪽 입력으로 커넥트.
모델 평가를 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택하여 평가 점수를 생성합니다.

결과

모델 평가를 실행한 후 모듈을 마우스 오른쪽 단추로 클릭하고 평가 결과를 선택하여 결과를 확인합니다. 다음과 같습니다.

결과를 데이터 세트로 저장하여 다른 도구를 사용하여 더 쉽게 분석할 수 있습니다.
Studio(클래식) 인터페이스에서 시각화 생성

모델 평가의 두 입력 모두에 데이터 세트를 연결하는 경우 결과에는 두 데이터 세트 또는 두 모델에 대한 메트릭이 포함됩니다. 왼쪽 포트에 연결된 모델 또는 데이터가 먼저 보고서에 표시되고 오른쪽 포트에 연결된 데이터 세트 또는 모델에 대한 메트릭이 표시됩니다.

예를 들어, 다음 이미지는 동일한 데이터를 기준으로 작성되었지만 다른 매개 변수를 사용하는 두 클러스터링 모델의 결과를 비교해서 보여 줍니다.

AML_Comparing2Models

이것은 클러스터링 모델이므로 평가 결과는 두 회귀 모델의 점수를 비교하거나 두 분류 모델을 비교할 때와 다릅니다. 그러나 전체 프레젠테이션은 동일합니다.

메트릭

이 섹션에서는 모델 평가에서 사용하도록 지원되는 특정 유형의 모델에 대해 반환되는 메트릭을 설명합니다.

분류 모델
회귀 모델
클러스터링 모델

분류 모델에 대한 메트릭

분류 모델을 평가할 때 다음과 같은 메트릭이 보고됩니다. 모델을 비교하면 평가에 대해 선택한 메트릭에 따라 순위가 매겨집니다.

정확도는 분류 모델의 적합성을 전체 사례에 대한 참 결과의 비율로 측정합니다.
정밀도는 모든 긍정 결과에 대한 참 결과의 비율입니다.
회수는 모델에서 반환하는 모든 올바른 결과의 비율입니다.
F-점수는 0~1 사이의 정밀도 및 회수의 가중 평균으로 계산됩니다. 여기서 이상적인 F-점수 값은 1입니다.
AUC는 y축의 참 긍정과 x축의 거짓 긍정을 사용하여 그린 곡선 아래의 영역을 측정합니다. 이 메트릭은 여러 가지 유형의 모델을 비교할 수 있는 단일 숫자를 제공하기 때문에 유용합니다.
평균 로그 손실은 잘못된 결과에 대한 패널티를 나타내는 데 사용되는 단일 점수입니다. 두 확률 분포(실제 분포 및 모델의 분포) 간의 차이로 계산됩니다.
학습 로그 손실은 분류자가 임의 예측보다 나은 점을 나타내는 단일 점수입니다. 로그 손실은 출력의 확률을 레이블의 알려진 값(실측 자료)과 비교하여 모델의 불확실성을 측정합니다. 전체적으로 모델에 대한 로그 손실을 최소화하려고 할 것입니다.

회귀 모델에 대한 메트릭

회귀 모델에 대해 반환되는 메트릭은 일반적으로 오류 양을 예측하도록 설계되었습니다. 관찰된 값과 예측 값 간의 차이가 적으면 모델은 데이터에 잘 맞는 것으로 간주됩니다. 그러나 오차(한 예측 지점과 해당 실제 값 간 차이) 패턴을 살펴보면 모델의 잠재적 편향에 대해 더 많은 정보를 얻을 수 있습니다.

회귀 모델 평가에 대해 다음과 같은 메트릭이 보고됩니다. 모델을 비교할 때 평가에 대해 선택한 메트릭에 따라 순위가 매겨집니다.

음수 로그 가능성은 손실 함수를 측정하며, 점수가 낮을수록 좋습니다. 이 메트릭은 Bayesian 선형 회귀 및 의사 결정 포리스트 회귀에 대해서만 계산됩니다. 다른 알고리즘의 경우 값은 Infinity 아무 의미가 없습니다.
MAE(절대 평균 오차) 는 예측값이 실제 결과와 얼마나 가까운지를 측정합니다. 따라서 점수가 낮을수록 좋습니다.
RMSE(제곱 평균 오차) 는 모델의 오류를 요약하는 단일 값을 만듭니다. 이 메트릭은 차이를 제곱하여 과다 예측과 미달 예측 간 차이를 무시합니다.
RAE(상대 절대 오차) 는 예상 값과 실제 값의 상대 절대 차이입니다. 평균 차이를 산술 평균으로 나누기 때문에 상대 값이 됩니다.
RSE(상대 제곱 오차) 는 유사하게 실제 값의 총 제곱 오차를 나누어 예측 값의 총 제곱 오차를 정규화합니다.
평균 제로 원 오류(MZOE) 는 예측이 올바른지 여부를 나타냅니다. 다른 말로: ZeroOneLoss(x,y) = 1 때 x!=y; 그렇지 않으면 0.
R²라고도 하는 결정 계수는 모델의 예측 기능을 0에서 1 사이의 값으로 나타냅니다. 0은 모델이 무작위로 사용됨을 의미하고(아무 것도 설명하지 않음), 1은 완벽하게 잘 맞음을 의미합니다. 그러나 낮은 값은 완전히 정상이고 높은 값은 주의 대상이 될 수 있으므로 R² 값을 해석할 때는 주의해야 합니다.

클러스터링 모델에 대한 메트릭

클러스터링 모델은 다양한 측면에서 분류 및 회귀 모델과 크게 다르므로 모델 평가에서도 클러스터링 모델에 대해서는 다른 통계 세트를 반환합니다.

클러스터링 모델에 대해 반환되는 통계는 각 클러스터에 할당된 데이터 요소 수, 클러스터 간의 구분 간격 및 각 클러스터 내에서 데이터 요소가 얼마나 촘촘히 붙어 있는지를 나타냅니다.

클러스터당 통계를 포함하는 추가 행을 비롯한 전체 데이터 세트에 대해 클러스터링 모델 통계의 평균을 계산합니다.

예를 들어 다음 결과는 Machine Learning Studio(클래식)에서 사용할 수 있는 PIMA 인도 당뇨병 이진 분류 데이터 세트의 데이터를 클러스터하는 샘플 실험의 결과 일부를 보여 줍니다.

결과 설명	클러스터 센터까지의 평균 거리	다른 센터까지의 평균 거리	점 수	클러스터 센터까지의 최대 거리
결합된 평가	55.915068	169.897505	538	303.545166
클러스터 0에 대한 평가	0	1	570	0
클러스터 1번 평가	0	1	178	0
클러스터 2번 평가	0	1	178	0

이러한 결과에서 다음 정보를 얻을 수 있습니다.

스윕 클러스터링 모듈은 정확도 순서대로 나열된 여러 클러스터링 모델을 만듭니다. 간단히 하기 위해 여기서는 최고 순위 모델만 보여 보았습니다. 모델은 가능한 모든 메트릭을 사용하여 측정되지만 지정한 메트릭을 사용하여 모델의 순위가 매겨집니다. 메트릭을 변경한 경우 다른 모델의 순위가 더 높을 수 있습니다.
결과의 각 섹션 맨 위에 있는 결합된 평가 점수는 해당 특정 모델에서 만든 클러스터의 평균 점수를 나열합니다.

이 최상위 모델은 세 개의 클러스터를 만드는 데 발생했습니다. 다른 모델은 두 개의 클러스터 또는 4개의 클러스터를 만들 수 있습니다. 따라서 이 결합된 평가 점수는 다양한 클러스터 수의 모델을 비교하는 데 도움이 됩니다.
클러스터 중심까지의 평균 거리 열의 점수는 클러스터의 모든 요소와 해당 클러스터의 중심이 얼마나 가까운지를 나타냅니다.
다른 중심까지의 평균 거리 열의 점수는 클러스터의 각 요소가 다른 모든 클러스터의 중심과 평균적으로 얼마나 가까운지를 나타냅니다.

4개의 메트릭 중 하나를 선택하여 이 거리를 측정할 수 있지만 모든 측정값은 동일한 메트릭을 사용해야 합니다.
요소 수 열에는 각 클러스터에 할당된 데이터 요소의 수와 클러스터에 있는 총 데이터 요소 수가 표시됩니다.

클러스터에 할당된 데이터 요소 수가 사용 가능한 총 데이터 요소 수보다 적으면 데이터 요소를 클러스터에 할당할 수 없음을 의미합니다.
열의 점수인 최대 클러스터 센터까지의 거리는 각 지점과 해당 지점 클러스터의 중심 사이의 거리 합계를 나타냅니다.

이 수치가 높으면 클러스터가 널리 분산된 것을 의미할 수 있습니다. 클러스터의 분산을 확인하려면 클러스터 센터까지의 평균 거리 와 함께 이 통계를 검토해야 합니다.

예

평가 메트릭을 생성, 시각화 및 해석하는 방법의 예제는 Azure AI 갤러리에서 이러한 샘플 실험을 참조하세요. 이러한 실험에서는 여러 모델을 빌드하고 모델 평가를 사용하여 최적의 모델을 판별하는 방법을 보여 줍니다.

이진 분류자 비교: 동일한 데이터를 사용하여 빌드된 여러 분류자의 성능을 비교하는 방법을 설명합니다.
다중 클래스 분류자 비교: 문자 인식 데이터 세트에 빌드된 다양한 분류 모델의 정확도를 비교하는 방법을 보여 줍니다.
회귀자 비교: 다양한 회귀 모델을 평가하는 프로세스를 안내합니다.
수요 예측: 여러 모델의 평가 메트릭을 결합하는 방법을 알아봅니다.
고객 관계 예측: 여러 관련 모델을 평가하는 방법을 보여 줍니다.

예상 입력

Name	Type	Description
점수가 매겨진 데이터 집합입니다.	데이터 테이블	점수가 매겨진 데이터 집합입니다.
점수가 매겨진 비교 대상 데이터 집합	데이터 테이블	점수가 매겨진 비교 대상 데이터 집합입니다(선택 사항).

출력

Name	Type	Description
평가 결과	데이터 테이블	데이터 평가 결과입니다.

예외

예외	설명
오류 0003	하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0013	모듈로 전달된 학습자의 형식이 올바르지 않으면 예외가 발생합니다.
오류 0020	모듈에 전달된 데이터 세트 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0021	모듈에 전달된 데이터 세트 중 일부의 행 수가 너무 적으면 예외가 발생합니다.
오류 0024	데이터 세트에 레이블 열이 없으면 예외가 발생합니다.
오류 0025	데이터 세트에 점수 열이 없으면 예외가 발생합니다.

추가 정보

모델 교차 유효성 검사
추천 평가
평가
모델 채점

다음을 통해 공유