Поделиться через


Дать определение «качество»: наборы оценки

В этой статье описываются наборы вычислений и способы обеспечения качества приложения.

Что такое набор оценки?

Для измерения качества Databricks рекомендует создать набор оценок с ручной разметкой. Оценочный набор — это проработанный, репрезентативный набор запросов, а также правильные ответы и (при наличии) верные вспомогательные документы, которые необходимо извлечь. Участие человека имеет решающее значение в этом процессе, так как оно гарантирует соответствие ожиданиям и требованиям конечных пользователей.

Процесс создания человеческих меток может занять много времени. Вы можете начать с создания оценочного набора, который включает только вопросы, и добавлять эталонные ответы с течением времени. Оценка агента Mosaic AI может оценить качество вашей цепочки без эталонных данных, однако, если эталонные данные доступны, она вычисляет дополнительные метрики, такие как правильность ответа.

Элементы хорошего оценочного набора

Хороший набор оценки имеет следующие характеристики:

  • Представитель: точно отражает разнообразие запросов, с которыми приложение столкнется в рабочей среде.
  • Сложно. Набор должен включать сложные и разнообразные варианты для эффективного тестирования возможностей модели. В идеале он включает в себя состязательные примеры, такие как вопросы, пытающиеся произвести внедрение запроса или вопросы, пытающиеся вызвать недопустимые ответы от LLM.
  • Постоянно обновляемый : набор должен периодически обновляться, чтобы отразить, как приложение используется в рабочей среде, изменение характера индексированных данных и любые изменения требований приложения.

Databricks рекомендует как минимум 30 вопросов в наборе оценки, а в идеале 100 – 200. Лучшие наборы оценки будут расти со временем, чтобы содержать 1000 вопросов.

Наборы обучения, тестирования и проверки

Чтобы избежать переобучения, Databricks рекомендует разделить ваш набор данных для оценки на наборы для обучения, тестирования и проверки.

  • Обучающий набор: ~70% вопросов. Используется для первой оценки экспериментов, чтобы выявить те, которые обладают наибольшим потенциалом.
  • Тестовый набор: ~20% вопросов. Используется для оценки самых высокопроизводительных экспериментов из обучающего набора.
  • Валидационный набор: ~10% вопросов. Используется для последней проверки перед развертыванием эксперимента в рабочей среде.

Оценка агента ИИ Mosaic позволяет создать набор для оценки, используя веб-интерфейс чата, через который заинтересованные стороны могут оставить отзывы о результатах работы приложения. Выходные данные цепочки и отзывы заинтересованных сторон сохраняются в Delta Tables, которые затем можно организовать в набор для оценки. См. подбор набора для оценки в разделе реализации этой кулинарной книги для получения практических инструкций с примером кода.