Определение "качество": наборы вычислений
В этой статье описываются наборы вычислений и способы обеспечения качества приложения.
Что такое набор оценки?
Для измерения качества Databricks рекомендует создать набор оценки с меткой человека. Оценочный набор — это курируемый, репрезентативный набор запросов, а также ответы на ответы на землю и (необязательно) правильные вспомогательные документы, которые должны быть получены. Человеческий ввод имеет решающее значение в этом процессе, так как он гарантирует точное отражение ожиданий и требований конечных пользователей.
Обработка меток человека может быть длительным процессом. Вы можете приступить к работе, создав оценочный набор, содержащий только вопросы, и добавить ответы на правду с течением времени. Оценка агента ИИ мозаики может оценить качество вашей цепочки без правды земли, хотя, если доступна земная истина, она вычисляет дополнительные метрики, такие как правильность ответа.
Элементы хорошего набора оценки
Хороший набор оценки имеет следующие характеристики:
- Представитель: точно отражает различные запросы, которые приложение столкнется в рабочей среде.
- Сложно. Набор должен включать сложные и разнообразные варианты для эффективного тестирования возможностей модели. В идеале он включает в себя состязательные примеры, такие как вопросы, пытающиеся внедрение запроса или вопросы, пытающиеся создать недопустимые ответы от LLM.
- Постоянно обновляемый : набор должен периодически обновляться, чтобы отразить, как приложение используется в рабочей среде, изменение характера индексированных данных и любые изменения требований приложения.
Databricks рекомендует по крайней мере 30 вопросов в наборе оценки и в идеале 100 – 200. Лучшие наборы оценки будут расти со временем, чтобы содержать 1000 вопросов.
Наборы обучения, тестирования и проверки
Чтобы избежать переполнения, Databricks рекомендует разделить набор оценки на наборы обучения, тестирования и проверки:
- Обучающий набор: ~70% вопросов. Используется для начального прохода для оценки каждого эксперимента, чтобы определить самые высокие потенциальные.
- Тестовый набор: ~20% вопросов. Используется для оценки самых высокопроизводительных экспериментов из обучающего набора.
- Набор проверки: ~10% вопросов. Используется для последней проверки перед развертыванием эксперимента в рабочей среде.
Оценка агента ИИ Мозаики помогает создать набор оценки, предоставив веб-интерфейс чата для заинтересованных лиц, чтобы предоставить отзыв о выходных данных приложения. Выходные данные цепочки и отзывы заинтересованных лиц сохраняются в разностных таблицах, которые затем можно курировать в оценочном наборе. Дополнительные инструкции см . в руководстве по анализу набора вычислений в разделе реализации этой книги, чтобы получить практические инструкции с примером кода.