예측 모델 성능
각 교육 후 AI Builder는 테스트 데이터 세트를 사용하여 새 모델의 품질과 적합성을 평가합니다. 모델에 대한 요약 페이지에는 모델 학습 결과가 표시됩니다. 이러한 결과는 A, B, C 또는 D의 성능 등급으로 표시됩니다.
성능 측정
성능 등급
각 교육 후에 AI Builder는 모델의 정확도를 평가하는 데 도움이 되는 등급을 표시합니다. 모델을 게시할 준비가 되었는지는 고유한 요구 사항과 상황에 따라 결정해야 합니다. AI Builder는 이런 판단을 내리는 데 도움이 되도록 다음과 같은 성능 등급을 제공합니다.
각 등급을 해석하는 방법
등급 | 지침 |
---|---|
A | 모델을 개선하는 것은 여전히 가능할 수도 있지만 이 등급이 얻을 수 있는 최상입니다. |
B | 많은 경우에 모델이 정확합니다. 개선할 수 있을까요? 고유한 상황, 데이터 및 요구 사항에 따라 다릅니다. |
C | 모델은 임의 추측보다 약간 더 좋습니다. 일부 애플리케이션에서 용인될 수 있지만 대부분의 경우 계속 조정하고 개선해야 할 모델입니다. |
D | 무언가 잘못되었습니다. 임의의 추측이 수행할 것으로 예상되는 것보다 모델 성능이 떨어집니다(과소 맞춤 모델). 또는 결과 (과적합 모델)와 직접적으로 관련된 데이터 열이 있을 수 있을 정도로(100% 또는 거의 100%에 가깝게) 성능이 우수합니다. |
정확도 범위가 데이터에 따라 다릅니다
2개 이상의 결과를 예측하는 경우 위 등급에 해당하는 실제 정확도 둥굽운 기록 데이터의 데이터 분포에 따라 달라질 수 있습니다. 이러한 차이는 해당 기준을 이동할 때 기준 비율의 향상이 변한다는 사실을 설명해줍니다.
배송이 제시간에 도착할지 여부를 예측하는 모델이 있다고 가정하겠습니다. 과거에 제시간에 도착한 비율이 80%이면 92%의 성능 점수가 B등급에 해당합니다. 그러나 과거에 제시간에 도착한 비율이 50%이면 92%가 A등급에 해당합니다. 92%는 80%에 대해서보다 50%에 대해서 훨씬 더 많이 개선되기 때문에 임의 추측은 해당 백분율에 근접할 것으로 예상할 수 있습니다.
이진 기록 데이터 예
이 예에서는 과거 데이터에 이진 예측에 대한 서로 다른 제시간 도착 비율이 포함된 경우 각 등급에 대한 정확도 범위를 보여줍니다.
등급 | 과거 25% 제시간 도착 비율에 대한 정확도 범위 | 과거 50% 제시간 도착 비율에 대한 정확도 범위 | 과거 80% 제시간 도착 비율에 대한 정확도 범위 | 과거 95% 제시간 도착 비율에 대한 정확도 범위 |
---|---|---|---|---|
A | 92.5 - <99.3% | 90 – 98% | 93 - <99% | 98.1 - <99.8% |
B | 81.3 - <92.5% | 75 - <90% | 84 - <93% | 95.3 - <98.1% |
C | 66.3 - <81.3% | 55 - <75% | 71 - <84% | 91.5 - <95.3% |
D | <66.3% 또는 ≥99.3% | <55% 또는 ≥98% | <71% 또는 ≥99% | <91.5% 또는 ≥99.8% |
다중 결과 기록 데이터 예제
각 등급에 해당하는 정확도는 또한 2가지 이상의 결과를 예측할 때 달라질 수 있습니다. 모델이 조기, 정시 또는 늦게 전달을 위한 두 가지 이상의 옵션을 예측한다고 가정해 봅시다.
과거의 정시 요금이 변경되면 각 등급의 정확도 범위가 변경됩니다.
등급 | 초기(33.3%) | 초기(20%) | 초기(10%) |
---|---|---|---|
정시(33.3%) | 정시(40%) | 정시(80%) | |
늦게(33.4%) | 늦게(40%) | 늦게(10%) | |
A | 86.7 - <98.7% | 87.2 - <98.7% | 93.2 - <99.3% |
B | 66.7 - <86.7% | 68.0 - <87.2% | 83.0 - <93.2% |
C | 40.0 - <66.7% | 42.4 - <68.0% | 69.4 - <83.0% |
D | 33.3 - <40.0% | 36.0 - <42.4% | 66.0 - <69.4% |
수치 예측 예
수치 예측을 할 때 AI Builder는 R-제곱 통계 측정값을 사용하여 모델 정확도 등급을 계산합니다. 다음 표는 각 등급에 해당하는 등급을 보여줍니다.
등급 | R-제곱 |
---|---|
A | 85% - <99% |
B | 60% - <85% |
C | 10% - <60% |
D | ≥99% 또는 <10% |
성능 정보
학습에 대한 자세한 내용은 모델의 등급 상자에서 세부 정보 참조를 선택하세요. 성능 탭에서 다음과 같은 정보가 제공됩니다.
노트
이 영역에 계획된 추가 기능에 대한 정보는 출시 계획을 참조하십시오.
- 정확도 점수
- R-제곱
정확도 점수
AI Builder는 테스트 데이터 세트의 예측 결과를 기반으로 모델의 정확도 점수를 계산합니다. 훈련하기 전에 AI Builder는 데이터 세트를 별도의 훈련 데이터와 테스트 데이터 세트로 분리합니다. 그리고 훈련 후 AI Builder는 AI 모델을 테스트 데이터 세트에 적용한 다음 정확도 점수를 계산합니다. 예를 들면, 테스트 데이터 세트에 200개의 행이 있고 AI Builder가 그중 192개를 정확하게 예측하면 AI Builder는 정확도 점수를 96%로 표시합니다.
자세한 내용은 모델 평가를 참조하십시오.
R -제곱
수치 예측을 할 때 AI Builder는 각 훈련 후 r-제곱 점수를 계산합니다. 이 점수는 모델의 '적합도'를 측정하고 모델의 성능 등급을 결정하는 데 사용됩니다.
주문을 처리하고, 출고하고, 배송하기까지의 일 수를 예측하는 상황을 가정해 보겠습니다. 모델은 일련의 수치를 예측합니다. r 점수는 학습 데이터의 예측된 값과 실제 값 사이의 거리를 기반으로 합니다. 이 값은 0~100% 사이의 수치로 표현되며, 값이 높을수록 예측된 값이 실제 값에 가까움을 나타냅니다. 일반적으로 점수가 높을수록 모델의 성능이 더 좋음을 의미합니다. 그러나 완벽하거나 완벽에 가까운 점수(과잉 적합 모델)는 일반적으로 훈련 데이터에 문제가 있음을 나타낸다는 사실을 기억하시기 바랍니다.
요약 탭에서 다음과 같은 성능 정보가 제공됩니다.
- 학습 날짜
- 데이터 원본
- 과거 결과
- 예측을 수행하는 데 사용된 테이블 목록입니다.
예측 모델 성능 개선
모델을 학습시키고 평가한 후에는 성능을 개선하도록 모델을 조정해야 합니다. 모델의 예측 기능을 개선하기 위해 시도할 수 있는 몇 가지 작업은 다음과 같습니다.
오류 및 문제 검토
- 학습을 마친 후 오류가 발생하면 오류를 수정하고 모델을 다시 학습시킵니다.
- 오류가 없으면 학습 세부 정보를 확인합니다. 최대한 많은 문제를 해결한 다음 모델을 다시 학습시킵니다.
주요 영향 요인 검토
각 학습 후에 주요 영향 요인 목록이 모델 세부 정보 페이지에 표시됩니다. 학습에 사용되는 각 열에는 학습에 미치는 영향을 나타내는 점수가 있습니다. 이 점수들은 합하면 100%에 해당합니다.
이 점수를 통해 모델이 예상한 대로 학습되는지 보여 줄 수 있습니다. 예를 들어 온라인 쇼핑객의 의도를 예측하고 연령, 제품이 가장 영향력 있는 열로 예상되는 경우 모델 세부 정보 페이지의 가장 영향력 있는 열 목록에서 이를 확인해야 합니다. 표시되지 않는 경우 학습 결과가 예상과 다르다는 것을 나타낼 수 있습니다. 이 경우 관련이 없거나 잘못된 열을 선택 취소하고 모델을 다시 학습 시키거나 학습 문제를 확인하여 추가 세부 정보를 확인할 수 있습니다.
더 많은 데이터 추가
학습 데이터의 최소 요구 사항은 행 50개이지만, 이는 데이터 행 50개로 예측 기능이 우수한 모델을 학습시킨다는 의미는 아닙니다. 옵션 간에 현실적으로 배포하여 레이블이 올바르게 지정된 데이터 행을 1,000개 이상 제공해 보세요.
데이터 배포 확인
예를 들어 두 가지 옵션 레이블인 예 또는 아니요를 사용하고 이 필드에서 대부분 데이터 레코드에는 예만 있는 경우 모델은 이 데이터에서 학습하는 것이 어렵습니다. 원하는 옵션 배포를 거의 반영하는 옵션 배포를 데이터에 포함해 보세요. 예를 들어 cat_owner 및 dog_owner에 대한 데이터 열을 보고 있는 경우 약 50% 정도의 데이터 분포를 사용합니다. 사기성 트랜잭션을 보고 있다면 더 불균형한 분포(대략 95%에서 5%)를 사용합니다. 예상 결과를 잘 모르는 경우에는 이 유형의 정보에 대한 산업 표준을 살펴봅니다.
더 많은 열 추가
예를 들어 제품을 반환할 가능성이 높은 고객과 제품을 구매할 가능성이 높은 고객을 예측하려는 경우를 살펴봅니다. 더 많은 열을 추가하면 학습 데이터를 더 풍부하게 만들 수 있습니다. 예:
- 고객이 제품을 어떻게 평가하나요?
- 고객이 제품을 얼마나 많이 사용하나요?
- 고객이 기존 고객인가요?
선택한 열 범위를 관련 정보로 좁히기
레이블이 올바르게 지정된 많은 학습 데이터와 많은 데이터 열이 이미 있을 수 있습니다. 그러면 아직 모델의 성능이 좋지 않은 이유는 무엇인가요? 원하지 않는 바이어스를 초래하는 열을 선택하고 있기 때문일 수 있습니다. 선택한 모든 열이 예측하려는 항목에 대한 영향과 관련이 있는지 확인합니다. 관련이 없거나 잘못된 열을 선택 취소합니다.
데이터의 유효성 검사
- 데이터 열에 높은 비율의 누락된 값(99% 초과)이 없는지 확인합니다. 누락된 값을 기본 데이터로 채우거나 모델 학습에서 데이터 열을 제거합니다.
- 데이터 열이 예측 결과와 높은 상관 관계가 있는 경우 모델 학습에서 데이터 열을 제거합니다.