다음을 통해 공유


3단계 관련자의 피드백으로부터 평가 집합 만들기

평가 세트가 강조된 워크플로

이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.

예상 시간: 10~60분 시간은 이해 관계자가 제공한 응답의 품질에 따라 달라집니다. 응답이 엉망이거나 관련이 없는 쿼리가 많이 포함된 경우 데이터를 필터링하고 정리하는 데 더 많은 시간을 할애해야 합니다.

개요 및 예상 결과

이 단계에서는 검토 앱을 사용하여 관련자가 제공한 피드백과 함께 평가 집합을 부트스트랩합니다. 질문만 포함된 평가 집합을 초기화할 수 있기 때문에, 이해관계자들이 앱과 채팅만 하고 피드백을 제공하지 않더라도 이 단계를 진행할 수 있습니다.

에이전트 평가의 스키마 관련해서는 에이전트 평가 입력 스키마을 참조하세요. 이 스키마의 필드는 이 섹션의 나머지 부분에서 참조됩니다.

이 단계가 끝나면 다음을 포함하는 평가 집합이 있습니다.

  • 엄지손가락을 올리는 요청 👍:
    • request: 사용자가 입력한 대로입니다.
    • expected_response: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 모델에서 생성된 응답입니다.
  • 엄지손가락을 내리는 요청 👎:
    • request: 사용자가 입력한 대로입니다.
    • expected_response: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 응답은 null입니다.
  • 피드백이 없는 요청(엄지손가락 올리기 👍 또는 엄지손가락 내리기 👎)
    • request: 사용자가 입력한 대로입니다.

모든 요청의 경우 사용자가 👍에서 청크에 엄지손가락 올리기 retrieved_context를 선택하면 해당 청크의 doc_uri가 해당 질문의 expected_retrieved_context에 포함됩니다.

Important

Databricks는 평가를 시작하기 위해 평가 세트에 최소 30개 이상의 질문을 포함하는 것을 권장합니다. "좋은" 평가 집합이 무엇인지 자세히 알아보려면 평가 집합 심층 분석 읽어보세요.

요구 사항

  • 이해 관계자는 POC를 사용하고 피드백을 제공했습니다.
  • 이전 단계의 모든 요구 사항입니다.

지침

  1. 04_create_evaluation_set notebook을 열고 모두 실행을 클릭합니다.
  2. 포함된 데이터를 이해하려면 평가 집합을 검사합니다. 평가 집합에 대표적이고 까다로운 질문 집합이 포함되어 있는지 확인해야 합니다. 필요에 따라 평가 집합을 조정합니다.
  3. 기본적으로, 평가 집합은 EVALUATION_SET_FQN으로 구성된 Delta 테이블에 00_global_config 노트북에 저장됩니다.

다음 단계

이제 평가 집합이 있으므로 POC 앱의 품질, 비용 및 대기 시간을 평가하는 데 사용합니다. 4단계. POC의 품질 평가를 참조하세요.

< 이전: 2단계. POC 배포 및 피드백 수집

다음: 4단계. POC 품질 평가 >