"품질" 정의: 평가 집합
이 문서에서는 평가 집합과 평가 집합이 애플리케이션의 품질을 보장하는 데 어떻게 도움이 되는지 설명합니다.
평가 집합이란?
품질을 측정하기 위해 Databricks는 사람이 레이블이 지정된 평가 집합을 만드는 것이 좋습니다. 평가 집합은 쿼리의 큐레이팅된 대표적인 집합이며, 기본 진리 답변과 검색해야 하는 올바른 지원 문서(선택 사항)입니다. 이 프로세스에서는 최종 사용자의 기대와 요구 사항을 정확하게 반영하는 평가 집합이 보장되므로 사용자 입력이 중요합니다.
사용자 레이블 큐레이팅은 시간이 많이 걸리는 프로세스일 수 있습니다. 질문만 포함하는 평가 집합을 만들어 시작할 수 있으며 시간이 지남에 따라 기본 진리 응답을 추가할 수 있습니다. Mosaic AI 에이전트 평가 는 지상 진리 없이 체인의 품질을 평가할 수 있지만, 지상 진리를 사용할 수 있는 경우 응답 정확성과 같은 추가 메트릭을 계산합니다.
좋은 평가 집합의 요소
좋은 평가 세트에는 다음과 같은 특징이 있습니다:
- 담당자: 애플리케이션이 프로덕션에서 발생하는 다양한 요청을 정확하게 반영합니다.
- 도전 사항: 모델의 기능을 효과적으로 테스트하려면 집합에 어렵고 다양한 사례가 포함되어야 합니다. 이상적으로는 프롬프트 주입을 시도하는 질문이나 LLM에서 부적절한 응답을 생성하려는 질문과 같은 악의적인 예제가 포함되어 있습니다.
- 지속적으로 업데이트: 애플리케이션이 프로덕션에서 사용되는 방법, 인덱싱된 데이터의 변화하는 특성 및 애플리케이션 요구 사항의 변경 내용을 반영하도록 집합을 주기적으로 업데이트해야 합니다.
Databricks는 평가 집합에 30개 이상의 질문과 이상적으로 100-200개의 질문을 권장합니다. 최상의 평가 집합은 시간이 지남에 따라 증가하여 1,000개의 질문을 포함합니다.
학습, 테스트 및 유효성 검사 집합
과잉 맞춤을 방지하기 위해 Databricks는 평가 집합을 학습, 테스트 및 유효성 검사 집합으로 분할하는 것이 좋습니다.
- 교육 세트: 질문의 70%. 모든 실험을 평가하여 가장 높은 잠재적인 실험을 식별하는 초기 패스에 사용됩니다.
- 테스트 세트: 질문의 20%. 학습 집합에서 가장 성능이 높은 실험을 평가하는 데 사용됩니다.
- 유효성 검사 집합: 질문의 ~10%. 프로덕션에 실험을 배포하기 전에 최종 유효성 검사에 사용됩니다.
Mosaic AI 에이전트 평가는 관련자가 애플리케이션의 출력에 대한 피드백을 제공할 수 있도록 웹 기반 채팅 인터페이스를 제공하여 평가 집합을 만드는 데 도움이 됩니다. 체인의 출력 및 관련자 피드백은 Delta Tables에 저장되며 평가 집합으로 큐레이팅할 수 있습니다. 샘플 코드가 포함된 실습 지침은 이 쿡북의 구현 섹션에서 평가 집합 큐레이팅을 참조하세요.