예측 모델 성능

아티클
01/10/2024

각 교육 후 AI Builder는 테스트 데이터 세트를 사용하여 새 모델의 품질과 적합성을 평가합니다. 모델에 대한 요약 페이지에는 모델 학습 결과가 표시됩니다. 이러한 결과는 A, B, C 또는 D의 성능 등급으로 표시됩니다.

성능 측정

성능 등급

각 교육 후에 AI Builder는 모델의 정확도를 평가하는 데 도움이 되는 등급을 표시합니다. 모델을 게시할 준비가 되었는지는 고유한 요구 사항과 상황에 따라 결정해야 합니다. AI Builder는 이런 판단을 내리는 데 도움이 되도록 다음과 같은 성능 등급을 제공합니다.

각 등급을 해석하는 방법

등급	지침
A	모델을 개선하는 것은 여전히 가능할 수도 있지만 이 등급이 얻을 수 있는 최상입니다.
B	많은 경우에 모델이 정확합니다. 개선할 수 있을까요? 고유한 상황, 데이터 및 요구 사항에 따라 다릅니다.
C	모델은 임의 추측보다 약간 더 좋습니다. 일부 애플리케이션에서 용인될 수 있지만 대부분의 경우 계속 조정하고 개선해야 할 모델입니다.
D	무언가 잘못되었습니다. 임의의 추측이 수행할 것으로 예상되는 것보다 모델 성능이 떨어집니다(과소 맞춤 모델). 또는 결과 (과적합 모델)와 직접적으로 관련된 데이터 열이 있을 수 있을 정도로(100% 또는 거의 100%에 가깝게) 성능이 우수합니다.

과소 맞춤 모델에 대한 추가 정보
과잉 맞춤 모델에 대한 추가 정보

정확도 범위가 데이터에 따라 다릅니다

2개 이상의 결과를 예측하는 경우 위 등급에 해당하는 실제 정확도 둥굽운 기록 데이터의 데이터 분포에 따라 달라질 수 있습니다. 이러한 차이는 해당 기준을 이동할 때 기준 비율의 향상이 변한다는 사실을 설명해줍니다.

배송이 제시간에 도착할지 여부를 예측하는 모델이 있다고 가정하겠습니다. 과거에 제시간에 도착한 비율이 80%이면 92%의 성능 점수가 B등급에 해당합니다. 그러나 과거에 제시간에 도착한 비율이 50%이면 92%가 A등급에 해당합니다. 92%는 80%에 대해서보다 50%에 대해서 훨씬 더 많이 개선되기 때문에 임의 추측은 해당 백분율에 근접할 것으로 예상할 수 있습니다.

이진 기록 데이터 예

이 예에서는 과거 데이터에 이진 예측에 대한 서로 다른 제시간 도착 비율이 포함된 경우 각 등급에 대한 정확도 범위를 보여줍니다.

등급	과거 25% 제시간 도착 비율에 대한 정확도 범위	과거 50% 제시간 도착 비율에 대한 정확도 범위	과거 80% 제시간 도착 비율에 대한 정확도 범위	과거 95% 제시간 도착 비율에 대한 정확도 범위
A	92.5 - <99.3%	90 – 98%	93 - <99%	98.1 - <99.8%
B	81.3 - <92.5%	75 - <90%	84 - <93%	95.3 - <98.1%
C	66.3 - <81.3%	55 - <75%	71 - <84%	91.5 - <95.3%
D	<66.3% 또는 ≥99.3%	<55% 또는 ≥98%	<71% 또는 ≥99%	<91.5% 또는 ≥99.8%

다중 결과 기록 데이터 예제

각 등급에 해당하는 정확도는 또한 2가지 이상의 결과를 예측할 때 달라질 수 있습니다. 모델이 조기, 정시 또는 늦게 전달을 위한 두 가지 이상의 옵션을 예측한다고 가정해 봅시다.

과거의 정시 요금이 변경되면 각 등급의 정확도 범위가 변경됩니다.

등급	초기(33.3%)	초기(20%)	초기(10%)
	정시(33.3%)	정시(40%)	정시(80%)
	늦게(33.4%)	늦게(40%)	늦게(10%)
A	86.7 - <98.7%	87.2 - <98.7%	93.2 - <99.3%
B	66.7 - <86.7%	68.0 - <87.2%	83.0 - <93.2%
C	40.0 - <66.7%	42.4 - <68.0%	69.4 - <83.0%
D	33.3 - <40.0%	36.0 - <42.4%	66.0 - <69.4%

수치 예측 예

수치 예측을 할 때 AI Builder는 R-제곱 통계 측정값을 사용하여 모델 정확도 등급을 계산합니다. 다음 표는 각 등급에 해당하는 등급을 보여줍니다.

등급	R-제곱
A	85% - <99%
B	60% - <85%
C	10% - <60%
D	≥99% 또는 <10%

성능 정보

학습에 대한 자세한 내용은 모델의 등급 상자에서 세부 정보 참조를 선택하세요. 성능 탭에서 다음과 같은 정보가 제공됩니다.

노트

이 영역에 계획된 추가 기능에 대한 정보는 출시 계획을 참조하십시오.

정확도 점수
R-제곱

정확도 점수

AI Builder는 테스트 데이터 세트의 예측 결과를 기반으로 모델의 정확도 점수를 계산합니다. 훈련하기 전에 AI Builder는 데이터 세트를 별도의 훈련 데이터와 테스트 데이터 세트로 분리합니다. 그리고 훈련 후 AI Builder는 AI 모델을 테스트 데이터 세트에 적용한 다음 정확도 점수를 계산합니다. 예를 들면, 테스트 데이터 세트에 200개의 행이 있고 AI Builder가 그중 192개를 정확하게 예측하면 AI Builder는 정확도 점수를 96%로 표시합니다.

자세한 내용은 모델 평가를 참조하십시오.

R -제곱

수치 예측을 할 때 AI Builder는 각 훈련 후 r-제곱 점수를 계산합니다. 이 점수는 모델의 '적합도'를 측정하고 모델의 성능 등급을 결정하는 데 사용됩니다.

주문을 처리하고, 출고하고, 배송하기까지의 일 수를 예측하는 상황을 가정해 보겠습니다. 모델은 일련의 수치를 예측합니다. r 점수는 학습 데이터의 예측된 값과 실제 값 사이의 거리를 기반으로 합니다. 이 값은 0~100% 사이의 수치로 표현되며, 값이 높을수록 예측된 값이 실제 값에 가까움을 나타냅니다. 일반적으로 점수가 높을수록 모델의 성능이 더 좋음을 의미합니다. 그러나 완벽하거나 완벽에 가까운 점수(과잉 적합 모델)는 일반적으로 훈련 데이터에 문제가 있음을 나타낸다는 사실을 기억하시기 바랍니다.

요약 탭에서 다음과 같은 성능 정보가 제공됩니다.

학습 날짜
데이터 원본
과거 결과
예측을 수행하는 데 사용된 테이블 목록입니다.

예측 모델 성능 개선

모델을 학습시키고 평가한 후에는 성능을 개선하도록 모델을 조정해야 합니다. 모델의 예측 기능을 개선하기 위해 시도할 수 있는 몇 가지 작업은 다음과 같습니다.

오류 및 문제 검토

학습을 마친 후 오류가 발생하면 오류를 수정하고 모델을 다시 학습시킵니다.
오류가 없으면 학습 세부 정보를 확인합니다. 최대한 많은 문제를 해결한 다음 모델을 다시 학습시킵니다.

주요 영향 요인 검토

각 학습 후에 주요 영향 요인 목록이 모델 세부 정보 페이지에 표시됩니다. 학습에 사용되는 각 열에는 학습에 미치는 영향을 나타내는 점수가 있습니다. 이 점수들은 합하면 100%에 해당합니다.

이 점수를 통해 모델이 예상한 대로 학습되는지 보여 줄 수 있습니다. 예를 들어 온라인 쇼핑객의 의도를 예측하고 연령, 제품이 가장 영향력 있는 열로 예상되는 경우 모델 세부 정보 페이지의 가장 영향력 있는 열 목록에서 이를 확인해야 합니다. 표시되지 않는 경우 학습 결과가 예상과 다르다는 것을 나타낼 수 있습니다. 이 경우 관련이 없거나 잘못된 열을 선택 취소하고 모델을 다시 학습 시키거나 학습 문제를 확인하여 추가 세부 정보를 확인할 수 있습니다.

더 많은 데이터 추가

학습 데이터의 최소 요구 사항은 행 50개이지만, 이는 데이터 행 50개로 예측 기능이 우수한 모델을 학습시킨다는 의미는 아닙니다. 옵션 간에 현실적으로 배포하여 레이블이 올바르게 지정된 데이터 행을 1,000개 이상 제공해 보세요.

데이터 배포 확인

예를 들어 두 가지 옵션 레이블인 예 또는 아니요를 사용하고 이 필드에서 대부분 데이터 레코드에는 예만 있는 경우 모델은 이 데이터에서 학습하는 것이 어렵습니다. 원하는 옵션 배포를 거의 반영하는 옵션 배포를 데이터에 포함해 보세요. 예를 들어 cat_owner 및 dog_owner에 대한 데이터 열을 보고 있는 경우 약 50% 정도의 데이터 분포를 사용합니다. 사기성 트랜잭션을 보고 있다면 더 불균형한 분포(대략 95%에서 5%)를 사용합니다. 예상 결과를 잘 모르는 경우에는 이 유형의 정보에 대한 산업 표준을 살펴봅니다.

더 많은 열 추가

예를 들어 제품을 반환할 가능성이 높은 고객과 제품을 구매할 가능성이 높은 고객을 예측하려는 경우를 살펴봅니다. 더 많은 열을 추가하면 학습 데이터를 더 풍부하게 만들 수 있습니다. 예:

고객이 제품을 어떻게 평가하나요?
고객이 제품을 얼마나 많이 사용하나요?
고객이 기존 고객인가요?

선택한 열 범위를 관련 정보로 좁히기

레이블이 올바르게 지정된 많은 학습 데이터와 많은 데이터 열이 이미 있을 수 있습니다. 그러면 아직 모델의 성능이 좋지 않은 이유는 무엇인가요? 원하지 않는 바이어스를 초래하는 열을 선택하고 있기 때문일 수 있습니다. 선택한 모든 열이 예측하려는 항목에 대한 영향과 관련이 있는지 확인합니다. 관련이 없거나 잘못된 열을 선택 취소합니다.

데이터의 유효성 검사

데이터 열에 높은 비율의 누락된 값(99% 초과)이 없는지 확인합니다. 누락된 값을 기본 데이터로 채우거나 모델 학습에서 데이터 열을 제거합니다.
데이터 열이 예측 결과와 높은 상관 관계가 있는 경우 모델 학습에서 데이터 열을 제거합니다.

다음 단계

Power Apps에서 예측 모델 사용

다음을 통해 공유