Поделиться через


Шаг 3. Курировать набор оценки от отзывов заинтересованных лиц

рабочий процесс с выделенным набором оценки

См. репозиторий GitHub для примера кода в этом разделе.

Ожидаемое время: 10 – 60 минут. Время зависит от качества ответов, предоставляемых заинтересованными лицами. Если ответы грязные или содержат много неуместных запросов, вам потребуется тратить больше времени на фильтрацию и очистку данных.

Обзор и ожидаемый результат

Этот шаг загрузит набор оценки с отзывом заинтересованных лиц, предоставленных с помощью приложения проверки. Обратите внимание, что вы можете загрузить набор оценки только с вопросами, поэтому даже если заинтересованные лица только общались с приложением и предоставляли отзыв, вы можете выполнить этот шаг.

Схема оценочного набора оценки агента см . в схеме входных данных для оценки агента. Поля в этой схеме ссылаются в остальной части этого раздела.

В конце этого шага у вас будет набор оценки, содержащий следующее:

  • Запросы 👍с большим пальцем:
    • request: как указано пользователем.
    • expected_response: ответ, измененный пользователем. Если пользователь не отредактировал ответ, ответ, созданный моделью.
  • Запросы с пальцем вниз 👎:
    • request: как указано пользователем.
    • expected_response: ответ, измененный пользователем. Если пользователь не редактировал ответ, ответ имеет значение NULL.
  • Запросы без обратной связи (без отпечатков 👍 или пальцем вниз 👎)
    • request: как указано пользователем.

Для всех запросов, если пользователь выбирает большой палец 👍 для фрагмента из retrieved_contextблока, doc_uri этот expected_retrieved_context блок включен в вопрос.

Внимание

Databricks рекомендует, чтобы набор вычислений содержал не менее 30 вопросов для начала работы. Ознакомьтесь с подробным обзором набора, чтобы узнать больше о том, что такое "хороший" набор оценки.

Требования

  • Заинтересованные лица использовали свой POC и предоставили отзывы.
  • Все требования из предыдущих шагов.

Instructions

  1. Откройте записную книжку 04_create_evaluation_set и нажмите кнопку "Выполнить все".
  2. Проверьте набор оценки, чтобы понять включенные данные. Необходимо проверить, содержит ли набор репрезентативных и сложных вопросов. Настройте набор оценки по мере необходимости.
  3. По умолчанию набор оценки сохраняется в таблице Delta, настроенной в EVALUATION_SET_FQN записной книжке 00_global_config.

Следующий шаг

Теперь, когда у вас есть набор оценки, используйте его для оценки качества, стоимости и задержки приложения POC. См . шаг 4. Оцените качество POC.

< Предыдущий: шаг 2. Развертывание POC и сбор отзывов

Далее: шаг 4. Оценка качества POC >