다음을 통해 공유


3단계 이해 관계자 피드백에서 평가 집합 큐레이팅

평가 집합이 강조 표시된 워크플로

이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.

예상 시간: 10~60분 시간은 이해 관계자가 제공한 응답의 품질에 따라 달라집니다. 응답이 엉망이거나 관련이 없는 쿼리가 많이 포함된 경우 데이터를 필터링하고 정리하는 데 더 많은 시간을 할애해야 합니다.

개요 및 예상 결과

이 단계에서는 검토 앱을 사용하여 이해 관계자가 제공한 피드백과 함께 평가 집합을 부트스트랩합니다. 질문만으로 평가 집합을 부트스트랩할 수 있으므로 이해 관계자가 앱과 채팅만 하고 피드백을 제공하지 않더라도 단계를 수행할 수 있습니다.

에이전트 평가 평가 집합의 스키마는 에이전트 평가 입력 스키마를 참조하세요. 이 스키마의 필드는 이 섹션의 나머지 부분에서 참조됩니다.

이 단계가 끝나면 다음을 포함하는 평가 집합이 있습니다.

  • 엄지손가락을 올리는 요청 👍:
    • request: 사용자가 입력한 대로입니다.
    • expected_response: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 모델에서 생성된 응답입니다.
  • 엄지손가락을 내리는 요청 👎:
    • request: 사용자가 입력한 대로입니다.
    • expected_response: 사용자가 편집한 응답입니다. 사용자가 응답을 편집하지 않은 경우 응답은 null입니다.
  • 피드백이 없는 요청(엄지손가락 올리기 👍 또는 엄지손가락 내리기 👎)
    • request: 사용자가 입력한 대로입니다.

모든 요청의 경우 사용자가 retrieved_context에서 청크에 엄지손가락 올리기 👍를 선택하면 해당 청크의 doc_uri가 해당 질문의 expected_retrieved_context에 포함됩니다.

Important

Databricks는 평가 집합에 30개 이상의 질문을 포함하여 시작하는 것이 좋습니다. "우수한" 평가 집합에 대해 자세히 알아보려면 평가 집합 자세히 살펴보기를 확인하세요.

요구 사항

  • 이해 관계자는 POC를 사용하고 피드백을 제공했습니다.
  • 이전 단계의 모든 요구 사항입니다.

지침

  1. 04_create_evaluation_set notebook을 열고 모두 실행을 클릭합니다.
  2. 포함된 데이터를 이해하려면 평가 집합을 검사합니다. 평가 집합에 대표적이고 까다로운 질문 집합이 포함되어 있는지 확인해야 합니다. 필요에 따라 평가 집합을 조정합니다.
  3. 기본적으로 평가 집합은 00_global_config notebookEVALUATION_SET_FQN에 구성된 Delta 테이블에 저장됩니다.

다음 단계

이제 평가 집합이 있으므로 POC 앱의 품질, 비용 및 대기 시간을 평가하는 데 사용합니다. 4단계. POC의 품질 평가를 참조하세요.

< 이전: 2단계. POC 배포 및 피드백 수집

다음: 4단계. POC 품질 평가 >