다음을 통해 공유


예측 모델 성능

각 교육 후 AI Builder는 테스트 데이터 세트를 사용하여 새 모델의 품질과 적합성을 평가합니다. 모델에 대한 요약 페이지에는 모델 학습 결과가 표시됩니다. 이러한 결과는 A, B, C 또는 D의 성능 등급으로 표시됩니다.

성능 측정

성능 등급

각 교육 후에 AI Builder는 모델의 정확도를 평가하는 데 도움이 되는 등급을 표시합니다. 모델을 게시할 준비가 되었는지는 고유한 요구 사항과 상황에 따라 결정해야 합니다. AI Builder는 이런 판단을 내리는 데 도움이 되도록 다음과 같은 성능 등급을 제공합니다.

각 등급을 해석하는 방법

등급 지침
A 모델을 개선하는 것은 여전히 가능할 수도 있지만 이 등급이 얻을 수 있는 최상입니다.
B 많은 경우에 모델이 정확합니다. 개선할 수 있을까요? 고유한 상황, 데이터 및 요구 사항에 따라 다릅니다.
C 모델은 임의 추측보다 약간 더 좋습니다. 일부 애플리케이션에서 용인될 수 있지만 대부분의 경우 계속 조정하고 개선해야 할 모델입니다.
D 무언가 잘못되었습니다. 임의의 추측이 수행할 것으로 예상되는 것보다 모델 성능이 떨어집니다(과소 맞춤 모델). 또는 결과 (과적합 모델)와 직접적으로 관련된 데이터 열이 있을 수 있을 정도로(100% 또는 거의 100%에 가깝게) 성능이 우수합니다.

정확도 범위가 데이터에 따라 다릅니다

2개 이상의 결과를 예측하는 경우 위 등급에 해당하는 실제 정확도 둥굽운 기록 데이터의 데이터 분포에 따라 달라질 수 있습니다. 이러한 차이는 해당 기준을 이동할 때 기준 비율의 향상이 변한다는 사실을 설명해줍니다.

배송이 제시간에 도착할지 여부를 예측하는 모델이 있다고 가정하겠습니다. 과거에 제시간에 도착한 비율이 80%이면 92%의 성능 점수가 B등급에 해당합니다. 그러나 과거에 제시간에 도착한 비율이 50%이면 92%가 A등급에 해당합니다. 92%는 80%에 대해서보다 50%에 대해서 훨씬 더 많이 개선되기 때문에 임의 추측은 해당 백분율에 근접할 것으로 예상할 수 있습니다.

이진 기록 데이터 예

이 예에서는 과거 데이터에 이진 예측에 대한 서로 다른 제시간 도착 비율이 포함된 경우 각 등급에 대한 정확도 범위를 보여줍니다.

등급 과거 25% 제시간 도착 비율에 대한 정확도 범위 과거 50% 제시간 도착 비율에 대한 정확도 범위 과거 80% 제시간 도착 비율에 대한 정확도 범위 과거 95% 제시간 도착 비율에 대한 정확도 범위
A 92.5 - <99.3% 90 – 98% 93 - <99% 98.1 - <99.8%
B 81.3 - <92.5% 75 - <90% 84 - <93% 95.3 - <98.1%
C 66.3 - <81.3% 55 - <75% 71 - <84% 91.5 - <95.3%
D <66.3% 또는 ≥99.3% <55% 또는 ≥98% <71% 또는 ≥99% <91.5% 또는 ≥99.8%

다중 결과 기록 데이터 예제

각 등급에 해당하는 정확도는 또한 2가지 이상의 결과를 예측할 때 달라질 수 있습니다. 모델이 조기, 정시 또는 늦게 전달을 위한 두 가지 이상의 옵션을 예측한다고 가정해 봅시다.

과거의 정시 요금이 변경되면 각 등급의 정확도 범위가 변경됩니다.

등급 초기(33.3%) 초기(20%) 초기(10%)
정시(33.3%) 정시(40%) 정시(80%)
늦게(33.4%) 늦게(40%) 늦게(10%)
A 86.7 - <98.7% 87.2 - <98.7% 93.2 - <99.3%
B 66.7 - <86.7% 68.0 - <87.2% 83.0 - <93.2%
C 40.0 - <66.7% 42.4 - <68.0% 69.4 - <83.0%
D 33.3 - <40.0% 36.0 - <42.4% 66.0 - <69.4%

수치 예측 예

수치 예측을 할 때 AI Builder는 R-제곱 통계 측정값을 사용하여 모델 정확도 등급을 계산합니다. 다음 표는 각 등급에 해당하는 등급을 보여줍니다.

등급 R-제곱
A 85% - <99%
B 60% - <85%
C 10% - <60%
D ≥99% 또는 <10%

성능 정보

학습에 대한 자세한 내용은 모델의 등급 상자에서 세부 정보 참조를 선택하세요. 성능 탭에서 다음과 같은 정보가 제공됩니다.

노트

이 영역에 계획된 추가 기능에 대한 정보는 출시 계획을 참조하십시오.

  • 정확도 점수
  • R-제곱

정확도 점수

AI Builder는 테스트 데이터 세트의 예측 결과를 기반으로 모델의 정확도 점수를 계산합니다. 훈련하기 전에 AI Builder는 데이터 세트를 별도의 훈련 데이터와 테스트 데이터 세트로 분리합니다. 그리고 훈련 후 AI Builder는 AI 모델을 테스트 데이터 세트에 적용한 다음 정확도 점수를 계산합니다. 예를 들면, 테스트 데이터 세트에 200개의 행이 있고 AI Builder가 그중 192개를 정확하게 예측하면 AI Builder는 정확도 점수를 96%로 표시합니다.

자세한 내용은 모델 평가를 참조하십시오.

R -제곱

수치 예측을 할 때 AI Builder는 각 훈련 후 r-제곱 점수를 계산합니다. 이 점수는 모델의 '적합도'를 측정하고 모델의 성능 등급을 결정하는 데 사용됩니다.

주문을 처리하고, 출고하고, 배송하기까지의 일 수를 예측하는 상황을 가정해 보겠습니다. 모델은 일련의 수치를 예측합니다. r 점수는 학습 데이터의 예측된 값과 실제 값 사이의 거리를 기반으로 합니다. 이 값은 0~100% 사이의 수치로 표현되며, 값이 높을수록 예측된 값이 실제 값에 가까움을 나타냅니다. 일반적으로 점수가 높을수록 모델의 성능이 더 좋음을 의미합니다. 그러나 완벽하거나 완벽에 가까운 점수(과잉 적합 모델)는 일반적으로 훈련 데이터에 문제가 있음을 나타낸다는 사실을 기억하시기 바랍니다.

요약 탭에서 다음과 같은 성능 정보가 제공됩니다.

  • 학습 날짜
  • 데이터 원본
  • 과거 결과
  • 예측을 수행하는 데 사용된 테이블 목록입니다.

예측 모델 성능 개선

모델을 학습시키고 평가한 후에는 성능을 개선하도록 모델을 조정해야 합니다. 모델의 예측 기능을 개선하기 위해 시도할 수 있는 몇 가지 작업은 다음과 같습니다.

오류 및 문제 검토

  • 학습을 마친 후 오류가 발생하면 오류를 수정하고 모델을 다시 학습시킵니다.
  • 오류가 없으면 학습 세부 정보를 확인합니다. 최대한 많은 문제를 해결한 다음 모델을 다시 학습시킵니다.

주요 영향 요인 검토

각 학습 후에 주요 영향 요인 목록이 모델 세부 정보 페이지에 표시됩니다. 학습에 사용되는 각 열에는 학습에 미치는 영향을 나타내는 점수가 있습니다. 이 점수들은 합하면 100%에 해당합니다.

이 점수를 통해 모델이 예상한 대로 학습되는지 보여 줄 수 있습니다. 예를 들어 온라인 쇼핑객의 의도를 예측하고 연령, 제품이 가장 영향력 있는 열로 예상되는 경우 모델 세부 정보 페이지의 가장 영향력 있는 열 목록에서 이를 확인해야 합니다. 표시되지 않는 경우 학습 결과가 예상과 다르다는 것을 나타낼 수 있습니다. 이 경우 관련이 없거나 잘못된 열을 선택 취소하고 모델을 다시 학습 시키거나 학습 문제를 확인하여 추가 세부 정보를 확인할 수 있습니다.

더 많은 데이터 추가

학습 데이터의 최소 요구 사항은 행 50개이지만, 이는 데이터 행 50개로 예측 기능이 우수한 모델을 학습시킨다는 의미는 아닙니다. 옵션 간에 현실적으로 배포하여 레이블이 올바르게 지정된 데이터 행을 1,000개 이상 제공해 보세요.

데이터 배포 확인

예를 들어 두 가지 옵션 레이블인 또는 아니요를 사용하고 이 필드에서 대부분 데이터 레코드에는 만 있는 경우 모델은 이 데이터에서 학습하는 것이 어렵습니다. 원하는 옵션 배포를 거의 반영하는 옵션 배포를 데이터에 포함해 보세요. 예를 들어 cat_ownerdog_owner에 대한 데이터 열을 보고 있는 경우 약 50% 정도의 데이터 분포를 사용합니다. 사기성 트랜잭션을 보고 있다면 더 불균형한 분포(대략 95%에서 5%)를 사용합니다. 예상 결과를 잘 모르는 경우에는 이 유형의 정보에 대한 산업 표준을 살펴봅니다.

더 많은 열 추가

예를 들어 제품을 반환할 가능성이 높은 고객과 제품을 구매할 가능성이 높은 고객을 예측하려는 경우를 살펴봅니다. 더 많은 열을 추가하면 학습 데이터를 더 풍부하게 만들 수 있습니다. 예:

  • 고객이 제품을 어떻게 평가하나요?
  • 고객이 제품을 얼마나 많이 사용하나요?
  • 고객이 기존 고객인가요?

선택한 열 범위를 관련 정보로 좁히기

레이블이 올바르게 지정된 많은 학습 데이터와 많은 데이터 열이 이미 있을 수 있습니다. 그러면 아직 모델의 성능이 좋지 않은 이유는 무엇인가요? 원하지 않는 바이어스를 초래하는 열을 선택하고 있기 때문일 수 있습니다. 선택한 모든 열이 예측하려는 항목에 대한 영향과 관련이 있는지 확인합니다. 관련이 없거나 잘못된 열을 선택 취소합니다.

데이터의 유효성 검사

  • 데이터 열에 높은 비율의 누락된 값(99% 초과)이 없는지 확인합니다. 누락된 값을 기본 데이터로 채우거나 모델 학습에서 데이터 열을 제거합니다.
  • 데이터 열이 예측 결과와 높은 상관 관계가 있는 경우 모델 학습에서 데이터 열을 제거합니다.

다음 단계

Power Apps에서 예측 모델 사용