"품질" 정의: 평가 집합
이 문서에서는 평가 집합과 평가 집합이 애플리케이션의 품질을 보장하는 데 어떻게 도움이 되는지 설명합니다.
평가 set란 무엇인가요?
품질을 측정하기 위해 Databricks는 사람이 레이블을 지정한 평가 set을 만드는 것을 권장합니다. 평가 set는 쿼리의 큐레이팅된 대표적인 set 목록과 정답, 그리고 (선택 사항으로) 검색해야 할 올바른 지원 문서로 구성됩니다. 사용자 입력은 평가 set 최종 사용자의 기대와 요구 사항을 정확하게 반영하도록 하기 때문에 이 프로세스에서 매우 중요합니다.
사용자 레이블 큐레이팅은 시간이 많이 걸리는 프로세스일 수 있습니다. 질문만 포함하는 평가 set 만들어 시작할 get 시간이 지남에 따라 기본 진리 응답을 추가할 수 있습니다. Mosaic AI 에이전트 평가 는 지상 진리 없이 체인의 품질을 평가할 수 있지만, 지상 진리를 사용할 수 있는 경우 응답 정확성과 같은 추가 메트릭을 계산합니다.
좋은 평가의 요소 set
좋은 평가 set 다음과 같은 특징이 있습니다.
- 담당자: 애플리케이션이 프로덕션에서 발생하는 다양한 요청을 정확하게 반영합니다.
- 난제:set 모델의 기능을 효과적으로 테스트하기 위해 어렵고 다양한 사례를 포함해야 합니다. 이상적으로는 프롬프트 주입을 시도하는 질문 또는 LLM에서 부적절한 응답을 generate 시도 하는 질문과 같은 악의적인 예제가 포함됩니다.
- 지속적으로 업데이트됨: 애플리케이션이 프로덕션에서 사용되는 방법, 인덱싱된 데이터의 변화하는 특성 및 애플리케이션 요구 사항의 변경 내용을 반영하도록 set 주기적으로 업데이트해야 합니다.
Databricks는 평가 set과정에서 적어도 30개의 질문을 권장하며, 이상적으로는 100-200개를 권장합니다. 최상의 평가 집합은 시간이 지남에 따라 증가하여 1,000개의 질문을 포함합니다.
학습, 테스트 및 유효성 검사 집합
과적합을 방지하기 위해, Databricks는 평가 set을 학습, 테스트, 유효성 검사 세트로 나누는 것을 권장합니다.
- 교육 set: 질문의 ~ 70%. 모든 실험을 평가하여 가장 높은 잠재적인 실험을 식별하는 초기 패스에 사용됩니다.
- 테스트 set: 질문의 ~ 20%. set훈련에서 가장 성능이 높은 실험을 평가하는 데 사용됩니다.
- 유효성 검사 set: 질문의 ~ 10%. 프로덕션에 실험을 배포하기 전에 최종 유효성 검사에 사용됩니다.
Mosaic AI 에이전트 평가는 이해관계자가 애플리케이션 출력에 피드백을 제공할 수 있는 웹 기반 채팅 인터페이스를 통해 평가 set을 생성하는 데 도움을 줍니다. 체인의 출력 및 이해관계자 피드백은 Delta Tables에 저장되며 평가 set로 큐레이팅할 수 있습니다. 이 쿡북의 구현 섹션에서 평가를 set 큐레이팅하는 방법에 대한 샘플 코드가 포함된 실습 지침을 참조하세요.
이전 < RAG 품질 평가: