Шаг 3. Курировать набор оценки от отзывов заинтересованных лиц
См. репозиторий GitHub для примера кода в этом разделе.
Ожидаемое время: 10 – 60 минут. Время зависит от качества ответов, предоставляемых заинтересованными лицами. Если ответы грязные или содержат много неуместных запросов, вам потребуется тратить больше времени на фильтрацию и очистку данных.
Обзор и ожидаемый результат
Этот шаг загрузит набор оценки с отзывом заинтересованных лиц, предоставленных с помощью приложения проверки. Обратите внимание, что вы можете загрузить набор оценки только с вопросами, поэтому даже если заинтересованные лица только общались с приложением и предоставляли отзыв, вы можете выполнить этот шаг.
Схема оценочного набора оценки агента см . в схеме входных данных для оценки агента. Поля в этой схеме ссылаются в остальной части этого раздела.
В конце этого шага у вас будет набор оценки, содержащий следующее:
- Запросы 👍с большим пальцем:
request
: как указано пользователем.expected_response
: ответ, измененный пользователем. Если пользователь не отредактировал ответ, ответ, созданный моделью.
- Запросы с пальцем вниз 👎:
request
: как указано пользователем.expected_response
: ответ, измененный пользователем. Если пользователь не редактировал ответ, ответ имеет значение NULL.
- Запросы без обратной связи (без отпечатков 👍 или пальцем вниз 👎)
request
: как указано пользователем.
Для всех запросов, если пользователь выбирает большой палец 👍 для фрагмента из retrieved_context
блока, doc_uri
этот expected_retrieved_context
блок включен в вопрос.
Внимание
Databricks рекомендует, чтобы набор вычислений содержал не менее 30 вопросов для начала работы. Ознакомьтесь с подробным обзором набора, чтобы узнать больше о том, что такое "хороший" набор оценки.
Требования
- Заинтересованные лица использовали свой POC и предоставили отзывы.
- Все требования из предыдущих шагов.
Instructions
- Откройте записную книжку 04_create_evaluation_set и нажмите кнопку "Выполнить все".
- Проверьте набор оценки, чтобы понять включенные данные. Необходимо проверить, содержит ли набор репрезентативных и сложных вопросов. Настройте набор оценки по мере необходимости.
- По умолчанию набор оценки сохраняется в таблице Delta, настроенной в
EVALUATION_SET_FQN
записной книжке 00_global_config.
Следующий шаг
Теперь, когда у вас есть набор оценки, используйте его для оценки качества, стоимости и задержки приложения POC. См . шаг 4. Оцените качество POC.