3단계 이해 관계자 피드백에서 평가 집합 큐레이팅
이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.
예상 시간: 10~60분 시간은 이해 관계자가 제공한 응답의 품질에 따라 달라집니다. 응답이 엉망이거나 관련이 없는 쿼리가 많이 포함된 경우 데이터를 필터링하고 정리하는 데 더 많은 시간을 할애해야 합니다.
개요 및 예상 결과
이 단계에서는 검토 앱을 사용하여 이해 관계자가 제공한 피드백과 함께 평가 집합을 부트스트랩합니다. 질문만으로 평가 집합을 부트스트랩할 수 있으므로 이해 관계자가 앱과 채팅만 하고 피드백을 제공하지 않더라도 단계를 수행할 수 있습니다.
에이전트 평가 평가 집합의 스키마는 에이전트 평가 입력 스키마를 참조하세요. 이 스키마의 필드는 이 섹션의 나머지 부분에서 참조됩니다.
이 단계가 끝나면 다음을 포함하는 평가 집합이 있습니다.
- 엄지손가락을 올리는 요청 👍:
request
: 사용자가 입력한 대로입니다.expected_response
: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 모델에서 생성된 응답입니다.
- 엄지손가락을 내리는 요청 👎:
request
: 사용자가 입력한 대로입니다.expected_response
: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 응답은 null입니다.
- 피드백이 없는 요청(엄지손가락 올리기 👍 또는 엄지손가락 내리기 👎)
request
: 사용자가 입력한 대로입니다.
모든 요청의 경우 사용자가 retrieved_context
에서 청크에 엄지손가락 올리기 👍를 선택하면 해당 청크의 doc_uri
가 해당 질문의 expected_retrieved_context
에 포함됩니다.
Important
Databricks는 평가 집합에 30개 이상의 질문을 포함하여 시작하는 것이 좋습니다. "우수한" 평가 집합에 대해 자세히 알아보려면 평가 집합 자세히 살펴보기를 확인하세요.
요구 사항
- 이해 관계자는 POC를 사용하고 피드백을 제공했습니다.
- 이전 단계의 모든 요구 사항입니다.
지침
- 04_create_evaluation_set notebook을 열고 모두 실행을 클릭합니다.
- 포함된 데이터를 이해하려면 평가 집합을 검사합니다. 평가 집합에 대표적이고 까다로운 질문 집합이 포함되어 있는지 확인해야 합니다. 필요에 따라 평가 집합을 조정합니다.
- 기본적으로 평가 집합은 00_global_config notebook의
EVALUATION_SET_FQN
에 구성된 Delta 테이블에 저장됩니다.
다음 단계
이제 평가 집합이 있으므로 POC 앱의 품질, 비용 및 대기 시간을 평가하는 데 사용합니다. 4단계. POC의 품질 평가를 참조하세요.