3단계 관련자의 피드백으로부터 평가 집합 만들기
평가 세트가 강조된 워크플로
이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.
예상 시간: 10~60분 시간은 이해 관계자가 제공한 응답의 품질에 따라 달라집니다. 응답이 엉망이거나 관련이 없는 쿼리가 많이 포함된 경우 데이터를 필터링하고 정리하는 데 더 많은 시간을 할애해야 합니다.
개요 및 예상 결과
이 단계에서는 검토 앱을 사용하여 관련자가 제공한 피드백과 함께 평가 집합을 부트스트랩합니다. 질문만 포함된 평가 집합을 초기화할 수 있기 때문에, 이해관계자들이 앱과 채팅만 하고 피드백을 제공하지 않더라도 이 단계를 진행할 수 있습니다.
에이전트 평가의 스키마 관련해서는 에이전트 평가 입력 스키마을 참조하세요. 이 스키마의 필드는 이 섹션의 나머지 부분에서 참조됩니다.
이 단계가 끝나면 다음을 포함하는 평가 집합이 있습니다.
- 엄지손가락을 올리는 요청 👍:
-
request
: 사용자가 입력한 대로입니다. -
expected_response
: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 모델에서 생성된 응답입니다.
-
- 엄지손가락을 내리는 요청 👎:
-
request
: 사용자가 입력한 대로입니다. -
expected_response
: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 응답은 null입니다.
-
- 피드백이 없는 요청(엄지손가락 올리기 👍 또는 엄지손가락 내리기 👎)
-
request
: 사용자가 입력한 대로입니다.
-
모든 요청의 경우 사용자가 👍에서 청크에 엄지손가락 올리기 retrieved_context
를 선택하면 해당 청크의 doc_uri
가 해당 질문의 expected_retrieved_context
에 포함됩니다.
Important
Databricks는 평가를 시작하기 위해 평가 세트에 최소 30개 이상의 질문을 포함하는 것을 권장합니다. "좋은" 평가 집합이 무엇인지 자세히 알아보려면 평가 집합 심층 분석 읽어보세요.
요구 사항
- 이해 관계자는 POC를 사용하고 피드백을 제공했습니다.
- 이전 단계의 모든 요구 사항입니다.
지침
- 04_create_evaluation_set notebook을 열고 모두 실행을 클릭합니다.
- 포함된 데이터를 이해하려면 평가 집합을 검사합니다. 평가 집합에 대표적이고 까다로운 질문 집합이 포함되어 있는지 확인해야 합니다. 필요에 따라 평가 집합을 조정합니다.
- 기본적으로, 평가 집합은
EVALUATION_SET_FQN
으로 구성된 Delta 테이블에 00_global_config 노트북에 저장됩니다.
다음 단계
이제 평가 집합이 있으므로 POC 앱의 품질, 비용 및 대기 시간을 평가하는 데 사용합니다. 4단계. POC의 품질 평가를 참조하세요.